Baidu создала программу, способную клонировать голос человека за несколько секунд

Борменталь Зорин 06.03.2018, 17:35

Компания Baidu, которую нередко называют «китайским Google», опубликовала технический документ, в котором рассказывается о последних наработках в сфере искусственного интеллекта (ИИ). Система, работающая на базе нейронной сети, способна клонировать человеческий голос на основе анализа даже очень короткого фрагмента исходного материала. Программа не только весьма неплохо имитирует человеческую речь, но еще и способна вносить в нее свои особенности вроде акцента.

С примерами имитации человеческих голосов нейронной сетью можно ознакомиться, пройдя по этой ссылке.

Предыдущие версии данной технологии позволяли создавать имитацию человеческой речи на основе анализа более продолжительных образцов. В 2017 году команда инженеров из Baidu Deep Voice представила технологию, способную имитировать речь человека на основе 30-минутного исходного материала. Конкурентные разработки в этой сфере, в свою очередь, справлялись несколько быстрее. Например, программа VoCo от компании Adobe могла имитировать человеческую речь на основе всего 20-минутного демо. А разработка Lyrebird канадского стартапа демонстрировала еще более удивительную возможность – ей хватало всего минуты оригинального семпла человеческого голоса, чтобы создать его имитацию. Новая же разработка Baidu пошла еще дальше – ей достаточно всего лишь несколько секунд исходного материала.

На первый взгляд может показаться, что в подобных технологиях нет никакой практической пользы – так, одно баловство. Но это большое заблуждение. В будущем эти технологии определенно найдут свою сферу использования. Представьте себе человека, утратившего возможность говорить и вновь ее обретшего, пусть даже и посредством машины. Или неспокойного ребенка, не желающего ложиться в кровать, пока не услышит вашего голоса, читающего сказку, в то время как вы находитесь очень далеко и у вас просто нет физической возможности ему позвонить. Это лишь самая незначительная часть тех возможностей, которые могут открыться перед этой технологией.

Помимо этого, данная технология может использоваться, например, для создания персонализированных цифровых ассистентов, способных разговаривать с вами настоящим человеческим, а не компьютерным голосом.

Но, как и у любой другой технологии, здесь тоже есть своя обратная сторона медали. Мы можем столкнуться с ее злоупотреблением и использованием в не совсем законных целях. Портал New Scientist сообщает, что текущая версия программы смогла создать один тип голоса, который при проверке системой распознавания голоса в 95 процентах случаев смог ее обмануть. А люди так вообще оценили качество клонированных образцов на 3,16 балла из 4. Такими темпами рано или поздно мы можем столкнуться со случаями мошенничества с использованием искусственного интеллекта.

Информация предоставлена по материалам digitaltrends