В России создали продвинутый детектор ИИ-текстов

V rossii sozdali prodvinutyj detektor ii tekstov 6dfd0d8.jpg

Российские учёные представили анализатор текста, который позволяет определить, был автором человек или нейросети. Новый детектор на основе двух языковых моделей работает с точностью до 94%, эффективен в отношении русскоязычных текстов и способен выявлять факты доработки ИИ-текстов, написанных пользователем. Руководитель проекта, сотрудник факультета информационных технологий и программирования ИТМО Вячеслав Шамалов раскрыл RT подробности разработки, а мы её протестировали.

Учёные из ИТМО разработали анализатор, определяющий, кем был написан тот или иной текст — нейросетью или человеком. Кроме того, система может редактировать сгенерированные ИИ тексты, делая их стиль более естественным. Алгоритм создан на основе двух языковых моделей и работает с точностью до 94%. Такой сервис будет полезен для проверки текстов в медиа, учебных заведениях и частных компаниях. Об этом RT сообщили в пресс-службе университета.

Большие языковые модели (Large Language Models, LLM) — тип нейросетей для генерации текста. LLM обучают на больших объёмах текстов, написанных людьми, однако ИИ всё равно не способен полностью заменить человека в этой области. Тексты, созданные нейросетями, часто содержат логические ошибки, шаблонные фразы и буквальные переводы иностранных выражений. Кроме того, эти тексты не подходят для дальнейшего обучения LLM, поскольку модели будут деградировать.

Для выявления сгенерированных текстов используют специальные ИИ-алгоритмы. Как рассказал RT научный руководитель нового проекта, сотрудник факультета информационных технологий и программирования ИТМО Вячеслав Шамалов, определители текстов, сгенерированных ИИ, опираются на три ветки сигналов — метрики удивительности (соответствие текста «ожиданиям» LLM. — RT), лингвистические признаки и технические метки, которые оставляют нейросети.

Однако ни одна из них не работает идеально, а существующие системы не способны выявить тексты, доработанные нейросетью за человеком.

Комбинированный подход

Учёные из ИТМО создали программу, которая может распознавать даже перефразированный ИИ-текст. Новый детектор использует в работе две большие языковые модели. Алгоритм сравнивает, насколько стиль написания текста «неожиданный» для этих моделей. Если «мнения» двух LLM расходятся, то, вероятно, текст написал ИИ.

Кроме того, детектор учитывает структуру предложений, разнообразие лексики, распределение частей речи и многие другие параметры. Такой комбинированный подход позволяет добиться точности до 94% при определении текстов, написанных либо только нейросетью, либо исключительно человеком. Точность распознавания текстов, созданных в соавторстве человека и нейросети, составляет около 80%. По итогам анализа классификатор-нейросеть выдаёт один из трёх ответов о происхождении текста: «человек», «ИИ» или «перефразированный ИИ».

«ИИ с перефразированием» — самый хитрый случай, когда текст прогоняют через перефраз или перевод. Помимо итоговой метки, мы также отображаем её вероятность и можем построить «тепловую карту» по предложениям, чтобы показать, где «шумит» текст. Кроме того, приводим лингвистические признаки: длину слов или предложений, долю стоп-слов, распределение частей речи, TTR/MTLD (показатели лексического разнообразия текста. — RT), читаемость и другие параметры. Это превращает результат в полноценный отчёт, а не просто «магический процент», — подчеркнул Вячеслав Шамалов.

Исследователь отметил, что подобранные языковые модели отличаются эффективностью работы именно с русскоязычными текстами.

Кроме того, в программе предусмотрена функция для «очеловечивания» ИИ-текстов. Алгоритм очищает текст от лишних переносов, превращает списки в абзацы и помечает или переписывает «подозрительные» предложения, сохраняя смысл и читаемость.

Детектор может ошибаться — как из-за природы самих языковых моделей, так и в связи с особенностями предлагаемых для анализа текстов, пояснил Вячеслав Шамалов.

«Они (LLM. — RT) работают не с истиной, а с паттернами. Во-первых, если какой-то стиль, структура или лексика часто встречались в «человеческих» текстах, то модель это запоминает и может считать признаком человеческого текста, даже если он явно сгенерирован, и наоборот. Во-вторых, короткие тексты плохо поддаются анализу: у них слишком мало признаков, чтобы делать уверенные выводы. В-третьих, люди тоже не всегда пишут естественно: бывают шаблонные эссе, переведённые тексты, формальные отчёты, корпоративный жаргон, и всё это может сместить признаки текста и запутать алгоритм», — разъяснил эксперт.

Разработанный в ИТМО инструмент может быть использован в вузах для проверки студенческих работ, в медиа и соцсетях для маркировки ИИ-контента. Также он поможет отслеживать использование ИИ в документации компаний. Демо-версия программы уже доступна на платформе Hugging Face Spaces, где любой зарегистрированный пользователь может проверить текст на наличие следов работы ИИ.

«Сейчас мы разрабатываем удобный интерфейс для нашего сервиса и готовим пакетную обработку, которая позволит анализировать несколько текстов одновременно и ускорить процесс. Осенью будем набирать дополнительную команду из молодых исследователей, чтобы развивать проект, а уже к весне попытаемся внедрить сервис в пилотном режиме в ИТМО — для поиска и исправления машинного текста в дипломных работах студентов», — рассказал Вячеслав Шамалов.

В будущем, отметил учёный, генеративные модели и детекторы будут развиваться в духе «гонки вооружений». Более того, определение ИИ-текстов затруднят изменения в естественной речи людей: читая большие объёмы текстов в интернете, многие из которых сгенерированы нейросетями, люди начинают говорить и писать иначе.

Вместе с тем маскировка сообщений ИИ под человеческую речь не является первоочерёдной целью разработчиков LLM: далеко не все пользовательские задачи сводятся к написанию естественного текста.

Тестовое задание

Корреспонденты RT протестировали функционирование сервиса в демо-режиме, доступном зарегистрированным пользователям платформы Hugging Face Spaces. Детектору текста было предложено проанализировать четыре материала: отрывок из рассказа А.П. Чехова «Дама с собачкой», текст, сгенерированный нейросетью, а также тексты, отредактированные нейросетью.

Детектор, как и обещали авторы проекта, выдал подробный отчёт о своей работе, включая статистические данные морфологического и синтаксического анализа, показатели TTR и MTLD, а также оценку читабельности, связности и данные о структуре текста.

Классификатор выносит единый вердикт о происхождении материала, однако поясняет своё решение, предоставляя статистические данные о вероятности того или иного результата.

Так, чеховский текст детектор оценил как созданный человеком, однако допустил 7%-ную вероятность участия ИИ в его написании. Текст, сгенерированный нейросетью, анализатор также классифицировал верно, оценив возможность вмешательства человека только на 0,05%.

Как и отмечал Вячеслав Шамалов, некоторые трудности возникли с атрибутированием текста, написанного человеком и обработанного нейросетью. Текст, который был наполовину отредактирован ИИ, а наполовину написан живым автором, программа классифицировала как человеческий с вероятностью 62%, однако оценила возможность перефразирования в 38%.

Когда анализатору показали текст, полностью обработанный нейросетью, картина сменилась практически на противоположную: материалу был присвоен класс «перефразированный ИИ» с 60%-ной вероятностью, а возможность создания этого текста человеком детектор оценил в 39%.

Добавить комментарий