В НИУ ВШЭ разрабатывают технологию идентификации текстов, сгенерированных ИИ любого типа

22.07.2024

Ученые НИУ ВШЭ работают над созданием приложения, которое позволяет установить, написан текст человеком или сгенерирован искусственным интеллектом. Подход, на который опирается приложение, носит универсальный характер и позволяет «ловить» самых разных ботов, построенных на разной архитектуре.

Существующие на сегодня подходы к идентификации текстов, сгенерированных ботами, зачастую базируются на работе с несколькими конкретными архитектурами бота, что существенно снижает диапазон их применения и делает уязвимыми перед будущими поколениями ботов. Цель проекта Вышки — создание эффективной системы обнаружения текстов, написанных разными программами, в широком классе ботов для различных языков.

«Наша разработка отличается от разработок конкурентов. Подавляющее большинство аналогичных проектов посвящено задаче идентификации конкретных архитектур генеративных языковых моделей (к примеру, ChatGPT). Это приводит к неизбежному устареванию таких наработок по мере развития инструментов генерации текстов и (или) возникновения новых типов ботов, а также вынуждает потенциальных потребителей использовать на практике сразу несколько моделей, ответственных за обнаружение ботов с различными архитектурами. Мы “ловим” всех ботов, а не только одного или нескольких, находящихся в нашем распоряжении», - Василий Громов, руководитель проекта, профессор департамента анализа данных и искусственного интеллекта факультета компьютерных наук НИУ ВШЭ.

Разрабатываемая система опирается на несколько различных областей математического знания: теория хаотических динамических систем, топологический анализ данных, теория размерности, теория кластеризации (четкой и нечеткой), нейронные сети и др. Это обеспечивает робастность системы: бот может «подделать» одну или даже несколько характеристик, но «подделать» их все крайне трудно.

«Нами проведены широкомасштабные вычислительные эксперименты с использованием различных методов анализа данных и искусственного интеллекта, что позволило определить наборы характеристик, наиболее подходящих для различения пространств и траекторий ботов и людей, и разработать прототип программного обеспечения».

В ближайшее время запланировано тестирование прототипа в широком диапазоне текстов — от художественных произведений, сгенерированных ботами, до выпускных конкурсных работ студентов НИУ ВШЭ. Планируется, что широкому кругу пользователей платформа будет доступна в 2025 году. Сначала она сможет «ловить» ботов на русском и английском языках, но ученые уже работают над увеличением числа языков, с которыми может взаимодействовать система. Это прежде всего языки стран БРИКС и языки народов России.