Как распознать текст, написаный ИИ?
Кажется, человечество попало в замкнутый круг. Генеративные модели ИИ настолько хорошо имитируют тексты созданные реальными людьми, что зачастую их невозможно отличить от настоящих. Все мы помним скандалы, когда искусственный интеллект успешно сдавал экзамены и писал научные рефераты.
Группа исследователей из Университета Канзаса (University of Kansas) решила разработать способ обнаружения научных статей, созданных искусственным интеллектом.
«Сейчас существуют большие проблемы с текстами, написанными ИИ», — заявила в своем заявлении Хизер Десэр (Heather Desaire), профессор химии Университета Канзаса. «Одна из самых больших проблем заключается в том, что он собирает текст из многих источников и не имеет никакой проверки подлинности».
Она и ее коллеги собрали данные для обучения искусственного интеллекта и классификации статей, написанных учеными и ChatGPT. Они отобрали 64 перспективные статьи — статьи особого стиля, опубликованные в научных журналах, — представляющие широкий спектр тем, от биологии до физики, и попросили ChatGPT сгенерировать подобные тексты. Таким образом было получено 128 поддельных статей, которые были использованы как обучающий материал.
Первоначальные эксперименты показали, что ИИ способен различать настоящие научные статьи от людей и статьи, созданные искусственным интеллектом, в 100% случаев. Однако точность на уровне отдельных абзацев немного снизилась — примерно до 92 %.
Настоящие люди обычно имеют более богатый словарный запас и пишут длинные предложения с использованием всего разнообразия слов. Они также используют знаки препинания, такие как вопросительные знаки, скобки и точки с запятой, намного чаще чем ChatGPT.
ChatGPT менее точен и не предоставляет конкретной информации о цифрах или других именах ученых по сравнению с людьми. В настоящих научных работах также используется более двусмысленный язык - например, «однако», «но», «хотя», а также «это» и «потому что».
Пока неясно, как быть с результатами совместного труда человека и ИИ. Вполне возможно, что тексты, отредактированные людьми, не будут опознаны как результат использования искусственного интеллекта. Поэтому все проведенные исследования следует воспринимать как исследование возможностей для классификации текстов.