Искусственный интеллект учится объединять звук и изображение как человек

11 минуту назад 136

Учёные из Ливерпульского университета создали компьютерную модель, способную объединять зрение и слух почти так же, как это делает человеческий мозг. Эта разработка, вдохновлённая биологией, может стать шагом к созданию искусственного интеллекта, который воспринимает мир естественно — как живое существо.

Как работает модель

В основе нового подхода лежит механизм, впервые обнаруженный у насекомых, — он помогает им замечать движение. Старший преподаватель психологии Ливерпульского университета Чезаре Паризе адаптировал этот принцип для обработки реальных аудио- и видеосигналов, а не абстрактных данных, как в старых моделях.

Когда человек наблюдает, как кто-то говорит, мозг автоматически связывает увиденное движение губ со звуком голоса. Именно так возникают известные иллюзии — эффект Мак-Гурка, когда рассинхрон между звуком и артикуляцией создаёт новое восприятие, или “фокус” чревовещателя, когда голос будто исходит от куклы.

Чезаре Паризе задался вопросом: как именно мозг определяет, что звук и изображение принадлежат одному источнику? Предыдущие вычислительные модели не могли напрямую ответить на этот вопрос. «Десятилетия исследований не дали нам модели, которая способна взять видео и определить, воспринимается ли звук синхронно», — поясняет учёный.

Эта ограниченность указывала на более глубокую проблему: теоретические модели могли описывать явление, но не справлялись с проверкой на реальных данных.

Модель, которая соперничает с природой

Новая система выросла из более ранних исследований Паризе и профессора Марка Эрнста из Университета Билефельда (Германия). Они предположили, что мозг объединяет сенсорные сигналы, отслеживая корреляции между ними, — принцип, получивший название Multisensory Correlation Detector (MCD).

В последней работе Паризе создал виртуальную решётку из множества таких “детекторов”, распределённых по зрительному и слуховому полям. Благодаря этому модель могла обрабатывать сложные реальные сигналы — не просто вспышки и щелчки, а целые аудиовизуальные сцены.

Результат впечатляющий: система воспроизвела результаты 69 известных экспериментов, проведённых на людях, обезьянах и крысах. Это — крупнейшая симуляция подобного рода за всю историю исследований восприятия. Причём модель не только совпала с поведением живых существ, но и превзошла популярную байесовскую модель причинного вывода, используя при этом то же количество параметров.

Более того, система предсказывала, куда человек направит взгляд при просмотре видеосцены, действуя как лёгкая версия “модели зрительного внимания”.

Зачем это нужно

По словам Паризе, элегантность этой модели делает её полезной не только для нейронаук, но и для развития ИИ. «Эволюция уже решила задачу согласования звука и изображения с помощью простых универсальных вычислений, которые работают у разных видов», — отмечает он.

Так как модель работает напрямую с “сырыми” аудио- и видеоданными, её можно применять к любым реальным материалам. В отличие от современных нейросетей, требующих огромных обучающих наборов и сотен параметров, решётка MCD эффективна и не нуждается в тренировке.

Читайте также: Дата-центры в космосе решат проблему огромного энергопотребления ИИ

То, что начиналось как модель зрения насекомых, теперь объясняет, как мозг — человеческий или животный — объединяет звук и изображение в самых разных условиях. От предсказания иллюзий вроде эффекта Мак-Гурка до построения “карт внимания” — этот подход открывает новую главу в исследованиях восприятия и искусственного интеллекта.

Исследование опубликовано в журнале eLife.