Технология преобразования текста в речь становится все совершеннее, но у нее есть важный недостаток. Чтобы добиться от системы реалистичного звучания, на ее обучение необходимо тратить слишком много времени и “сырого” материала. Компания Microsoft совместно с китайскими исследователями смогла решить эту проблему. Разработчики нашли новый способ быстро обучать компьютеры человеческой речи. Новому ИИ-алгоритму для обучения достаточно двух сотен образцов речи (около 20 минут записанных фраз) и ее текстовой расшифровки.
Система использует метод анализа, описанный в фильме “Трансформеры”. Нейросеть не просто зубрит произношение определенных слов, но симулирует нейронную структуру головного мозга. Это позволяет искусственному интеллекту на ходу деконструировать выученные звуки и пересобирать их в новые слова, не употреблявшиеся в исходных образцах речи. Таким образом, используя малые объемы обучающего материала, можно создавать реалистичные голоса.
Конечно, их звучание пока не идеально. Произношение все еще воспринимается слушателем как “компьютерное”. Тем не менее, точность воспроизведения составляет 99,84% процентов. В будущем разработчики обещают довести этот показатель до ста процентов, а сам голос сделать более живым и естественным.
Технология важна своей беспрецедентной доступностью. С ее помощью любой желающий сможет создавать реалистичные голоса для виртуальных ассистентов, начитав всего 20 минут текста. В общем, благодаря этой разработке мы еще на шаг приближаемся к будущему, в котором одним из основных способом общения с компьютером станет голос.