ИИ-приложения уже могут клонировать голос конкретного человека

Логотип компании
26.02.2018
ИИ-приложения уже могут клонировать голос конкретного человека
Эксперты опасаются, что такая технология, когда ее усовершенствуют, будет идеально подходить для создания поддельных аудиозаписей людей. К сожалению, это открывает большое поле для шантажа...

Большинству пользователей наверняка не понравится будущее, в котором искусственный интеллект сможет cкопировать его голос и говорить то, что он никогда не произносил.

Согласно статье «Neural Voice Cloning with a Few Samples» («Нейронное клонирование голоса на базе небольшого количества примеров»), опубликованной исследователями из компании Baidu, ИИ-приложение может всего несколько раз прослушать чей-то голос, а затем начать говорить почти так же. Отмечается, что это отчасти похоже на кибернетическую птицу-пересмешника, копирующую голоса.

Эксперты опасаются, что такая технология, когда ее усовершенствуют, будет идеально подходить для создания поддельных аудиозаписей людей. К сожалению, это открывает большое поле для шантажа.

Команда китайской компании Baidu, предоставляющей web-сервисы, хорошо известна благодаря разработке реалистично звучащей речи ИИ при прочтении текстовых файлов. Последний исследовательский проект этой компании, представленный на этой неделе, показывает, как ИИ-приложение может изучать характеристики голоса человека и воссоздавать этот звук для того, чтобы «человек» произнес совсем другие слова. Издание The Register приводит ссылку, содержащую оригинальную аудиозапись с определенным женским голосом, а также записи «клонированного» голоса, созданного на базе одного примера, пяти примеров, а также 100 примеров оригинального голоса.

Аналитики подчеркивают, что пока результаты не идеальны. Тем не менее, системе нейронного клонирования голоса удалось сохранить в речи британский акцент.

Исследователи представили два разных подхода к созданию системы нейронного клонирования голоса, первая получила название «speaker adaptation», вторая — «speaker encoding». Первый подход подразумевает обучение ИИ-приложения различным голосам, которые слышны на аудиозаписях разных людей. Для этого команда использовала 2 484 образца голоса. Искусственный интеллект учится распознавать характерные черты речи людей, чтобы имитировать даже едва уловимые особенности произношения и ритма.

Второй подход основан на обучении ИИ-приложения конкретным трансформациям голоса с аудиозаписи и воспроизведении схожих звуковых фрагментов с помощью отдельной базы. Для обучения этой системы также использовались примеры речи различных людей.

Ученый Серкан Арик (Sercan Arik), соавтор статьи и научный сотрудник Baidu Research, объяснил изданию The Register, что метод «speaker encoding» применить намного проще. Такое ИИ-приложение можно использовать даже на смартфоне, потому как этот метод быстр и не требует большого количества памяти устройства. Другими словами, не исключено, что вскоре появятся приложения для смартфона, которым достаточно будет прослушать фразу, сказанную другим человеком, и сконструировать другие фразы его голосом. Это, к сожалению, открывает путь для фальшивых телефонных звонков. Мысль, что ИИ может изменять данные, чтобы распространять ложную информацию, вызывает обеспокоенность у очень многих.

Ранее 26 специалистов в области искусственного интеллекта из различных университетов опубликовали документ «The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation», в котором перечислили варианты того, как ИИ-приложения могут использоваться злонамеренно. К сожалению, подобные документы не только служат цели предупредить проблемы, но и подкидывают идеи в топку тех, кто находится по другую сторону баррикад и как раз не против использовать ИИ с намерениями, далекими от добропорядочных.

Впрочем, технология клонирования голоса также может быть использована для вполне невинных целей, а не так, как в фильме «Терминатор 2», где два робота, один «хороший», а другой «плохой», обмениваются репликами, имитируя голоса юного Джона Коннора и его приемной матери.

В качестве позитивных примеров использования клонирования голоса приводится следующий вариант — матери смогут настроить аудиокнигу с тем, чтобы текст читался их голосом. О том, что это крадет бесценные моменты общения с ребенком, и о теряемой в данном варианте обратной связи, эксперты умалчивают.

Большинство аналитиков подчеркивают, что такие технологии, способные обходить биометрическую идентификацию по голосу, необходимо контролировать.

Читайте также
Очередные умные часы? Как бы не так! Эта новинка способна анализировать здоровье с медицинской точностью, и это первая модель такого рода, представленная на рынке. IT-World одним из первых получил тестовый экземпляр и готов поделиться с вами особенностями HUAWEI WATCH D 2.

Похожие статьи