В НИУ ВШЭ разрабатывают технологию идентификации текстов, сгенерированных ИИ любого типа
Существующие на сегодня подходы к идентификации текстов, сгенерированных ботами, зачастую базируются на работе с несколькими конкретными архитектурами бота, что существенно снижает диапазон их применения и делает уязвимыми перед будущими поколениями ботов. Цель проекта Вышки — создание эффективной системы обнаружения текстов, написанных разными программами, в широком классе ботов для различных языков.
«Наша разработка отличается от разработок конкурентов. Подавляющее большинство аналогичных проектов посвящено задаче идентификации конкретных архитектур генеративных языковых моделей (к примеру, ChatGPT). Это приводит к неизбежному устареванию таких наработок по мере развития инструментов генерации текстов и (или) возникновения новых типов ботов, а также вынуждает потенциальных потребителей использовать на практике сразу несколько моделей, ответственных за обнаружение ботов с различными архитектурами. Мы “ловим” всех ботов, а не только одного или нескольких, находящихся в нашем распоряжении», - Василий Громов, руководитель проекта, профессор департамента анализа данных и искусственного интеллекта факультета компьютерных наук НИУ ВШЭ.
Разрабатываемая система опирается на несколько различных областей математического знания: теория хаотических динамических систем, топологический анализ данных, теория размерности, теория кластеризации (четкой и нечеткой), нейронные сети и др. Это обеспечивает робастность системы: бот может «подделать» одну или даже несколько характеристик, но «подделать» их все крайне трудно.
«Нами проведены широкомасштабные вычислительные эксперименты с использованием различных методов анализа данных и искусственного интеллекта, что позволило определить наборы характеристик, наиболее подходящих для различения пространств и траекторий ботов и людей, и разработать прототип программного обеспечения».
В ближайшее время запланировано тестирование прототипа в широком диапазоне текстов — от художественных произведений, сгенерированных ботами, до выпускных конкурсных работ студентов НИУ ВШЭ. Планируется, что широкому кругу пользователей платформа будет доступна в 2025 году. Сначала она сможет «ловить» ботов на русском и английском языках, но ученые уже работают над увеличением числа языков, с которыми может взаимодействовать система. Это прежде всего языки стран БРИКС и языки народов России.