Для глухих и слабослышащих людей технологии распознавания голоса, такие как Alexa и Siri, могут стать препятствием для эффективной коммуникации. Потому ученые использовали ИИ для разработки инструмента, который преобразует язык жестов в текст, потенциально увеличивая инклюзивность и доступность технологии для инвалидов.
Перевод языка жестов требует точного понимания позы пользователя, чтобы генерировать точную текстовую транскрипцию. Исследователи из Барселонского суперкомпьютерного центра (BSC) и Политического университета Каталонии (UPC) использовали ИИ для разработки инструмента улучшения сурдоперевода. Этот важный шаг позволит глухим и слабослышащим людям взаимодействовать с технологиями и получать доступ к цифровым услугам, рассчитанным на использование с разговорного языка.
Исследователи использовали модель машинного обучения, аналогичную тем, которые стоят за другими инструментами ИИ, такими как ChatGPT. Такие модели особенно хороши в применении контекста, благодаря механизму самостоятельного понимания, присутствующему в архитектуре. Это похоже на то, как нейронная сеть контекстуализирует слова, глядя на другие слова в теле текста.
В качестве обучающего набора была использована база общедоступная How2Sign, включающая 80 часов учебных видео на американском жестовом языке с соответствующими стенограммами на английском.
Для исследователей было важно использовать видео непрерывного подписания, а не изолированного подписания, поскольку оно более реалистично отражает, как ораторы естественным образом используют цепочку слов (конкатенацию) для построения предложений, которые могут иметь решающее значение для определения значения предложения.
Проблемой, с которой столкнулись исследователи, была изменчивость и сложность жестовых языков. В них на смысл сказанного могут влиять такие вещи, как предыстория, контекст и даже внешний вид говорящего. Чтобы решить эту проблему, к обучающим видео применили 3D-фильтр, позволяющий распознать и отделить человек ана видео от фона.
Полученная модель неплохо справлялась с переводам с жестового языка, но все же была несовершенной. «Хотя наша работа показала многообещающие результаты, в ней все еще есть возможности для улучшения», - говорится в исследовании.
Поскольку модель все еще находится на экспериментальной стадии, исследователи продолжат работу над созданием инструмента, который позволяет глухим и слабослышащим людям получать доступ к тем же технологиям, что и людям без потери слуха.
Исследование опубликовано в онлайн-библиотеке arXiv.