Если вспоминать фантастические сериалы вроде Westworld, то одним из главных признаков «почти человека» у роботов всегда были губы, идеально попадающие в произносимые слова. Именно эта, на первый взгляд, мелочь делает искусственного собеседника по-настоящему убедительным. Исследователи из Колумбийского университета сделали важный шаг в этом направлении, создав робота, который не просто синхронизирует движения губ с речью, но и учится этому почти так же, как человек.

Разработка получила название EMO, хотя на самом деле речь идет не о полном андроиде, а о роботизированной голове. Под ее гибкой силиконовой «кожей» скрываются 26 миниатюрных электромоторов. Работая в разных сочетаниях, они заставляют лицо менять выражение, а губы принимать самые разные формы.
Такой набор приводов позволяет имитировать широкий спектр мимики, от простых движений губ до сложных эмоциональных выражений. Именно эта механическая база стала фундаментом для дальнейшего обучения.
Обучение через отражение
Первый этап обучения выглядит почти философски. Ученые поставили EMO перед зеркалом и позволили ему тысячи раз случайным образом шевелить «лицом». Робот наблюдал за собственным отражением и постепенно учился сопоставлять комбинации включенных моторов с тем, как они выглядят визуально.
Такой подход называется моделью «зрение – действие», или vision-to-action. По сути, EMO сформировал у себя внутреннюю карту: какое движение привода приводит к какому изменению формы губ, щек или челюсти. Для робота это аналог того, как младенец впервые осознает, что происходит, когда он шевелит мышцами лица.
Как робот учится говорить
На втором этапе EMO переключился с самонаблюдения на изучение людей. Он «просмотрел» много часов видеороликов на YouTube, где люди разговаривают и поют. Анализируя видео, система училась понимать, какие движения рта соответствуют тем или иным звукам речи.
Далее искусственный интеллект объединил эти знания с уже освоенной картой движений лица. В результате, когда робот произносит слова с помощью синтетического голосового модуля, он способен подбирать соответствующие движения губ, создавая эффект осмысленного и синхронного липсинка.
Ограничения и перспективы
Пока технология далека от идеала. EMO испытывает трудности с некоторыми звуками, например с «B» и «W», где требуются особенно точные и быстрые смыкания губ. Однако исследователи уверены, что с практикой эти проблемы будут постепенно исчезать.
По словам Юхан Ху, одного из авторов работы, настоящий прорыв начинается, когда такая мимика сочетается с продвинутым разговорным ИИ вроде ChatGPT или Gemini. Чем больше робот наблюдает за живым человеческим общением, тем точнее он начинает копировать тонкие жесты лица, с которыми мы эмоционально связываемся. А чем длиннее и богаче контекст диалога, тем более уместными и «чувствительными к ситуации» становятся эти жесты.
Синхронизация речи и мимики кажется деталью, но именно она делает общение с машиной естественным. Такие технологии могут сыграть ключевую роль в создании роботов-компаньонов, социальных помощников или интерактивных аватаров для образования и медицины. Чем меньше мы замечаем «механичность» собеседника, тем легче нам с ним взаимодействовать.
Результаты исследования недавно были опубликованы в научном журнале Science Robotics, и они наглядно показывают, насколько близко робототехника подошла к границе между машиной и человеком.
