Исследователи из Университета Вашингтона (University of Washington) представили инновационную систему Spatial Speech Translation — технологию пространственного перевода речи, встроенную в обычные наушники с функцией шумоподавления и дополнительными микрофонами. Новинка позволяет одновременно переводить речь нескольких собеседников, сохраняя тембр их голосов и направление, откуда доносится звук.
Один из авторов разработки, профессор Шьям Голлаката, отметил, что существующие решения ориентированы на перевод одного говорящего, что не соответствует реальным условиям, когда в помещении одновременно общаются несколько человек. Новый подход позволяет точно воспроизводить индивидуальные особенности каждого участника беседы.
Синхронный перевод будущего
Система использует алгоритмы, которые выделяют отдельные голоса, отслеживают их перемещения в пространстве, переводят речь и воспроизводят результат с задержкой от 2 до 4 секунд. При этом Spatial Speech Translation не прибегает к облачным вычислениям, что позволяет повысить уровень конфиденциальности и исключить риски, связанные с клонированием голосов.
Одна из ключевых инноваций — способность устройства сразу определить количество собеседников в помещении или на открытом воздухе. Как пояснил ведущий автор исследования, аспирант Туочао Чен, система работает по принципу радара, сканируя пространство на 360 градусов и динамически обновляя данные о количестве и местоположении людей.
Технология уже протестирована в десяти различных помещениях и на улице. В эксперименте с участием 29 человек большинство пользователей отдали предпочтение Spatial Speech Translation по сравнению с системами, которые не отслеживают местоположение говорящих.
Разработка открывает новые перспективы для носимых устройств, совмещающих перевод речи с сохранением пространственного восприятия и уникальных голосовых характеристик. В ходе испытаний система достигла качества перевода, измеренного по шкале BLEU, до 22.01 балла даже при наличии сильных помех.
Пока устройство работает только с обиходной речью на испанском, французском и немецком языках, однако разработчики отмечают, что модели могут быть обучены переводу до 100 языков. В будущем планируется снизить задержку перевода и расширить функциональность системы.