Искусственный интеллект от Microsoft научился имитировать голос
В Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь под названием VALL-E, которая может точно имитировать голос человека при трехсекундном звуковом образце. Как только VALL-E выучит конкретный голос, он может речь и эмоциональный тон говорящего. Его создатели предполагают, что ИИ можно использовать для высококачественных приложений преобразования текста в речь, для редактирования, озвучивания текстовых файлов, и для создания аудиоконтента.
Разработчики называют VALL-E «языковой моделью нейронного кодека», и она основана на технологии EnCodec, о которой Meta* объявила в октябре 2022 года. В отличие от других методов преобразования текста в речь, новая разработка анализирует, как звучит голос человека, делит эту информацию на отдельные компоненты (называемые «токенами»). Затем он использует данные из звукового семпла для «понимания» как должны звучать другие фразы.
Microsoft обучила возможности синтеза речи VALL-E на звуковой библиотеке LibriLight, собранной Meta*. Она содержит 60 000 часов англоязычной речи от более чем 7 000 носителей, в основном взятых из общедоступных аудиокниг.
«…Фальшивые фотографии, фальшивое видео, фальшивый текст и фальшивый голос... Я [живу] в золотую эру мошенничества и продажной пропаганды…»
Компания не предоставила исходный код синтезатора речи для экспериментов, возможно потому что исследователи осознают потенциальный вред, который может принести эта технология. Многие комментаторы поддерживают такую точку зрения.
* Признана экстремистской организацией и запрещена на территории РФ