Способность следить за ходом разговора и правильно транскрибировать его - одна из самых сложных задач для машины. По крайней мере, это была сложная задача до сегодняшнего дня.
Впервые исследователи Технологического института Карлсруэ (Германия) смогли разработать систему, которая превосходит людей в распознавании спонтанного разговорного языка.
“Когда люди разговаривают друг с другом, в их речи присутствуют паузы, заикания, слова-паразиты, вроде как “ну” или “хммм”, смех и покашливание. Часто слова произносятся нечетко”, - говорит Алекс Вайбель, профессор информатики в KIT. Даже человеку бывает непросто расшифровывать и записывать живой разговор. А для искусственного интеллекта эта задача была еще более сложной.
Теперь ученые KIT смогли создать ИИ, который расшифровывает живую речь быстрее и точнее, чем живой человек. При расшифровывании разговорной речи частота ошибок, совершаемых человеком, составляет около 5,5%. Система, разработанная Вайбелем, совершает ошибки с частотой 5%, что немного лучше человеческого показателя.
Помимо точности, для автоматизированной системы также важна скорость работы. Чем быстрее расшифровывается текст, тем быстрее его можно переводить в автоматическом режиме.
Искусственный интеллект KIT преобразовывает разговорную речь в текст с задержкой в одну секунду. Перевод текста может осуществляться практически синхронно с его произнесением. По словам Вайбеля, это наименьшая задержка, достигнутая системой распознавания речи на сегодняшний день.
Частота ошибок и задержка в расшифровке оцениваются с помощью международно научного теста, разработанного Национальным институтом стандартов и технологий США. Этот тест широко используется исследователями искусственного интеллекта, работающими над технологиями распознавания речи. Результаты однозначны: система KIT реально превосходит человека и является лучшей на сегодняшний день.
Подробнее о разработке можно прочитать в публикации на arXiv.org.