Как распознать текст, написаный ИИ?

Логотип компании
09.06.2023Автор
Как распознать текст, написаный ИИ?
Разработан алгоритм машинного обучения для обнаружения научных статей, созданных ChatGPT. Создатели утверждают, что программное обеспечение имеет точность более 99 процентов.

Кажется, человечество попало в замкнутый круг. Генеративные модели ИИ настолько хорошо имитируют тексты созданные реальными людьми, что зачастую их невозможно отличить от настоящих. Все мы помним скандалы, когда искусственный интеллект успешно сдавал экзамены и писал научные рефераты.

Группа исследователей из Университета Канзаса (University of Kansas) решила разработать способ обнаружения научных статей, созданных искусственным интеллектом.

«Сейчас существуют большие проблемы с текстами, написанными ИИ», — заявила в своем заявлении Хизер Десэр (Heather Desaire), профессор химии Университета Канзаса. «Одна из самых больших проблем заключается в том, что он собирает текст из многих источников и не имеет никакой проверки подлинности».

Она и ее коллеги собрали данные для обучения искусственного интеллекта и классификации статей, написанных учеными и ChatGPT. Они отобрали 64 перспективные статьи — статьи особого стиля, опубликованные в научных журналах, — представляющие широкий спектр тем, от биологии до физики, и попросили ChatGPT сгенерировать подобные тексты. Таким образом было получено 128 поддельных статей, которые были использованы как обучающий материал.

Первоначальные эксперименты показали, что ИИ способен различать настоящие научные статьи от людей и статьи, созданные искусственным интеллектом, в 100% случаев. Однако точность на уровне отдельных абзацев немного снизилась — примерно до 92 %.

Настоящие люди обычно имеют более богатый словарный запас и пишут длинные предложения с использованием всего разнообразия слов. Они также используют знаки препинания, такие как вопросительные знаки, скобки и точки с запятой, намного чаще чем ChatGPT.

ChatGPT менее точен и не предоставляет конкретной информации о цифрах или других именах ученых по сравнению с людьми. В настоящих научных работах также используется более двусмысленный язык - например, «однако», «но», «хотя», а также «это» и «потому что».

Пока неясно, как быть с результатами совместного труда человека и ИИ. Вполне возможно, что тексты, отредактированные людьми, не будут опознаны как результат использования искусственного интеллекта. Поэтому все проведенные исследования следует воспринимать как исследование возможностей для классификации текстов.

Читайте также
Еще совсем недавно от западных облачных сервисов зависело 30% крупных российских компаний. Их отключение, порой внезапное, должно было поставить рынок перед сложными вызовами. Но оказалось, что российские облака готовы предложить рынку вполне зрелые решения. Это и многое другое обсудили участники круглого стола IT-World «Импортозамещение в облаках».

Похожие статьи