Что такое deepfake и почему это проблема?

Логотип компании
Что такое deepfake и почему это проблема?

Изображение создано нейросетью freepik.com

Какие методы обнаружения deepfake существуют? Какие возможности могут предоставить большие языковые модели (LLM) для генерации и обнаружения дипфейков? Расскажем о технологии aIDeepfake для борьбы с фальсифицированным контентом.

Меня зовут Екатерина Корнюшина, я основатель проекта aIDeepFake – систем выявления фальсифицированного контента.

Синтетические медиа, созданные искусственным интеллектом, также называемые deepfake, оказали значительное влияние на многие области, от развлечений до кибербезопасности. C развитием технологии искусственного интеллекта цифровой мир нуждается в инструментах, которые позволят различать сгенерированный контент от реального.

Генеративные состязательные сети (GAN) и диффузионные модели (DM) являются основными фреймворками, используемыми для создания deepfake, производя высокореалистичный контент. Теперь пользователи могут создавать супер реалистичные синтетические изображения, видео и аудио с минимальными усилиями и наличия каких-либо особых навыков.

Развитие этих технологий может иметь двойной эффект. С одной стороны, такие методы позволяют потребителям исследовать новые творческие и художественные возможности и внедрять приложения, которые облегчают повседневную жизнь. С другой стороны, они могут приводить к опасностям и угрозам при неправильном использовании.

Методы обнаружения deepfake

Обнаружение deepfake стало важной областью нашего исследования, мы сосредоточились на выявлении тонких несоответствий и артефактов с помощью методов машинного обучения и сверточных нейронных сетей (CNN).

Рост числа методов генерации deepfake представляет собой растущую угрозу, что приводит к разработке многочисленных методов обнаружения поддельных видео для смягчения ущерба, который они могут нанести.

Что такое deepfake и почему это проблема? . Рис. 1

Как правило, методы обнаружения, использующие визуальный контент, можно разделить на две категории в зависимости от рассматриваемого подхода. Первая категория опирается на созданные вручную функции, а вторая использует функции на основе глубокого обучения. Ранние методы обнаружения подделок в первую очередь основаны на таких функциях, как черты лица, оптический поток и различные методы цифровой обработки изображений, предназначенные для улучшения видимости артефактов. Они включают только сценарии, в которых deepfake применяются к каждому кадру в видео, что не может полностью отражать различные реальные приложения, в которых deepfake могут применяться к определенным сегментам видео. Они также не уделяют внимания тонким манипуляциям, таким как незначительные изменения в выражениях лица или определенных чертах.

С развитием методов генерации видео deepfake и повышением качества производимых медиа, обнаружение кадров deepfake видео становится все более сложной задачей с использованием стандартных методов.

По этой причине мы применяем глубокие нейронные сети (DNN) с мощными возможностями извлечения признаков, стремясь к более точным и надежным инструментам обнаружения deepfake.

Технология aIDeepfake для борьбы с фальсифицированным контентом

Особенность нашего подхода заключается в том, что фаза обучения происходит не на мультимодальных дипфейковых данных, а на мономодальных образцах. Другими словами, мы никогда не обучаем наш детектор на видеопоследовательностях, которые содержат полностью синтетические данные, т.е. где и визуальный, и аудиоконтент являются дипфейками.

Во время фазы обучения мы объединяем признаки, полученные из синтетических аудиоданных и синтетических визуальных данных, извлеченных из непересекающихся мономодальных наборов данных, это означает, что нам не требуется никакого дополнительного материала в отношении обучения стандартных мономодальных детекторов.

Мы оцениваем производительность нашего метода на нескольких современных мультимодальных видео deepfake наборах данных, рассматривая различные стратегии слияния между двумя модальностями.

Что такое deepfake и почему это проблема? . Рис. 2

Результаты показывают, что мультимодальный подход в равной степени более функционален и надежен. То есть мы анализируем как лицо человека, так и его речь, чтобы сформировать окончательный результат. В частности, считаем видео поддельным, когда хотя бы один из визуальных и аудио компонентов изменен, и настоящим, когда оба являются подлинными. Далее подробно формулируем решаемую проблему и иллюстрируем предлагаемую методологию.

Потенциальный риск, вызванный распространением дипфейков, требует анализа и реагирования в реальном времени. Современные методы больше ориентированы на точность прогнозирования, чем на эффективность, что подчеркивает необходимость дальнейших инноваций и дополнительных усилий для достижения обнаружения в реальном времени.

Большие языковые модели (LLM) и их применение для детекции deepfake

Расширить возможность обнаружения дипфейков можно с помощью больших языковых моделей (LLM) для генерации и обнаружения. Поэтому интеграция LLM в обнаружение дипфейков может быть перспективным направлением. Например, LLM могут анализировать тонкости в модальности текста, которые могут сопровождать видео дипфейков, такие как несоответствия между произнесенными словами и движениями губ. Использование этих несоответствий может улучшить анализ. Кроме того, LLM могут автоматически генерировать объяснения об обнаруженных дипфейках, подробно описывая причины классификации и предоставляя доказательства, что имеет решающее значение для целей проверки.

Читайте также
Как сегодня медицина может использовать экосистемы, какие задачи решать с их помощью и на что опираться при их создании — рассказывает IT-World.

Переход от одномодального к мультимодальному обнаружению дипфейков знаменует собой критический сдвиг в этой области. Традиционные методы обнаружения, которые в первую очередь фокусируются на отдельных модальностях, таких как видео или аудио, становятся все более неактуальными по мере того, как технологии генерации дипфейков развиваются, чтобы включать в себя множественные модальности, такие как аудиовизуальные или текст-визуальные манипуляции.

Такая сложность требует передовых стратегий обнаружения, которые могут справиться с интеграцией различных модальностей. Будущие усилия должны быть направлены на дальнейшее развитие мультимодальных фреймворков обнаружения, подчеркивая улучшенную синхронизацию и более глубокое понимание межмодальной динамики.

Опубликовано 26.08.2024

Похожие статьи