Проблема достоверного обнаружение текста, сгенерированного искусственным интеллектом

В последние годы возможности больших языковых моделей (LLM) по созданию беглого, реалистично звучащего текста значительно улучшились. Сейчас человечество находится на этапе, когда сами люди не могут с уверенностью отличить текст, созданный с использованием искусственного интеллекта (ИИ), от того, который написан реальным человеком. У разработчиков существует множество возможностей внести вклад в повышение производительности систем, применяя вопросы и ответы, компьютерное программирование, мозговой штурм, корректуру и поиск информации. Однако большие языковые модели также могут способствовать вредоносной деятельности, повышая эффективность и снижая затраты на создание вредоносных программ, мошенничество, кражу личных данных, атаки с целью преследования конкретных персоналий и академическую нечестность. Ещё одним серьёзным риском, связанным с генеративным ИИ, является потенциальное «информационное загрязнение» в глобальном масштабе. Автоматически сгенерированные «поддельные» тексты могут быть использованы в коммерческих (продвижение продукта или поддельные обзоры) или в политических целях (пропаганда, «фейковые новости», дезинформация). Современные нейросети могут генерировать высококачественную, беглую поддельную информацию, которая воспринимается более достоверной, чем созданная человеком, и которую труднее распознать (как читателям-людям, так и автоматическим системам обнаружения).

Чтобы снизить риски злонамеренного использования и защитить целостность информационной системы, важно разработать инструменты, позволяющие отличать текст, написанный человеком, от текста, сгенерированного искусственным интеллектом. Задача такого достоверного обнаружения является весьма сложной, поскольку цели постоянно меняются: по мере того, как исследователи разрабатывают эффективные методы обнаружения из доступных в настоящее время LLM, разработчиками выпускаются всё новые и более «обученные» крупные модели. Процесс этот пока продолжается циклически. Более того, злоумышленники, стремящиеся скрыть использование инструментов искусственного интеллекта, в настоящее время разрабатывают враждебные атаки на сами методы обнаружения, стремясь изменить алгоритмы таким образом, чтобы сделать искусственное нераспознаваемым.

На данный момент времени, процесс обнаружения - это задача классификации текста, означающая, что входными данными является текстовая последовательность, а выходными - дискретное предсказание класса, обычно раньше рассматриваемая, как бинарная (определить контент создан ИИ или человеком). К настоящему времени уже не только люди, но и системы стали «умнее», а поэтому задачи тоже стали многоклассовыми - если необходимо дифференцировать уровень влияния ИИ в гибридных совместных «произведениях» или предсказать конкретную модель искусственного интеллекта, которая «поучаствовала» в создании (задача установления авторства). В некоторых случаях документ может быть написан совместно человеком и нейросетью, а исследователю нужно определить, где проходят границы между этими разделами. На примитивном уровне можно представить сам процесс обнаружения в виде выполнения классификации на уровне предложения или абзаца, а затем определяя положение, в котором текст переходит из одного класса в другой. Эти действия тоже можно доверить искусственному интеллекту: в большинстве случаев используется система контролируемого машинного обучения, которая предполагает наличие помеченных примеров для калибровки классификатора. Некоторые «автоматические детекторы» обучаются с использованием классического подхода, при котором сначала извлекаются релевантные признаки из текста (например, синтаксические или стилистические особенности), а затем эти признаки передаются на сервера дата-центра в классификатор машинного обучения, либо статистический (логистическая регрессия, SVM), либо нейронный (глубокая нейронная сеть).

Существуют и другие подходы, использующие языковые модели, предварительно обученные неконтролируемым образом на больших текстовых массивах, чтобы получить эффективные представления семантического значения текста в виде последовательностей плотных распределений. Затем эти модели могут быть точно настроены для любого количества задач обнаружения «искусственности происхождения», без необходимости в явном выделении признаков.

Ранние версии систем генерации текста (например, GPT) можно рассматривать просто как предварительно обученные языковые модели, которые могут генерировать полное продолжение текста путём итеративной генерации следующего слова в последовательности, обусловленной предыдущими словами (т.е. контекстом). А вот уже более изощрённые алгоритмы предварительно обучаются с использованием двунаправленной структуры. В последние годы LLM были усовершенствованы за счёт настройки инструкций и обучения с подкреплением посредством осуществления обратной связи с людьми, чтобы они могли отвечать на вопросы и следовать сложным инструкциям. Например, вместо того, чтобы писать остальную часть рассказа, основываясь на первых нескольких предложениях, пользователь, настроенный на инструкцию, может написать полный рассказ, получив подсказку: «Напишите фантастический рассказ в беззаботном тоне.» Система ИИ по-прежнему работает так же, как и раньше, генерируя следующее слово по одному за раз, но содержание и стиль определяются базовой инструкцией. Обратите внимание, что LLM также можно использовать в качестве классификаторов, просто задавая системе запрос на прогнозирование следующего слова во фразе. Это можно сделать без каких-либо примеров ввода (нулевой кадр) или с несколькими примерами, включёнными в подсказку (несколько кадров).

Тем не менее, основная функциональность больших языковых моделей по-прежнему заключается в создании последовательности слов с учётом контекста. На каждом этапе процесса генерации нейросеть распределяет вероятности, по всем словам, имеющимся в своей БД (словаре). Конкретный процесс, с помощью которого слово выбирается из этого распределения вероятностей, называется методом декодирования. Стратегия жадного декодирования всегда выбирает слово с наибольшей вероятностью, но это приводит к детерминированным и повторяющимся генерациям. Напротив, если модель просто отбирает весь словарный запас в соответствии с распределением, то неудачный выбор слов, скорее всего, связан с совокупной вероятностью всех слов низкой вероятности. Следовательно, необходим метод отбора слов, которые обладают высокой вероятностью использования в контексте (для обеспечения беглости и последовательности), а также выборки из относительно широкого диапазона (для обеспечения разнообразия и креативности).

На практике двумя наиболее популярными стратегиями декодирования являются выборка ядра и выборка верхнего уровня – то есть, слова отбираются в соответствии с их значениями вероятности, но выбор по-прежнему ограничен только наиболее используемыми. Выборка «top-k» всегда отдаст предпочтение одному из наиболее вероятных вариантов, а вот выборка «nucleus» (также называемая top-p, sampling или ядерная) использует общую сумму вероятностей в качестве критерия отсечения (сэмплинг) - при неопределённости модели возможно большее количество вариантов. Как значения вероятности выбранных слов, так и форма распределения вероятности на каждом шаге генерации дают важную информацию о том, насколько «неожиданным» является текст или насколько неопределённой является модель.

В естественном языке есть два широко используемых показателя для количественной оценки этой неопределённости. Затруднение связано с вероятностью, обратной нормализованной по длине последовательности слов. Например, если каждое слово в предложении было предсказано с высокой вероятностью, то предложение не вызывает особого удивления и не вызывает недоумения. Энтропия - это мера неопределённости или разброса в распределении вероятности. Высокооднородные распределения имеют высокую энтропию и подразумевают, что модель не уверена в следующем слове, учитывая контекст.

Эти статистические свойства генерации языка могут быть использованы для определения искусственности всего «произведения». Поскольку LLM создают текст, всегда выбирая следующее слово из набора с наибольшей вероятностью, искусственно созданные фрагменты, как правило, имеют низкую сложность и энтропию по сравнению с «человеческими». Это весьма несложно измеряется распределением вероятностей модели генерации.

Гибкость в выборе порога принятия решения означает, что можно выбрать фиксированную частоту ложных срабатываний. В контексте определения искусственности может потребоваться очень низкий уровень ложных срабатываний (т.е. низкий уровень ошибочной классификации текстов, написанных человеком в стиле искусственного интеллекта), чтобы смягчить последствия для пользователей-людей. Один из аспектов задачи, который быстро становится очевидным, заключается в том, что фраза «текст, созданный искусственным интеллектом» охватывает широкий спектр с различным уровнем участия человека. Это может быть текст, содержание и структура которого полностью созданы ИИ, например, в ответ на запрос типа «Расскажи мне сказку на ночь». Он также может включать тексты, в которых задано семантическое содержание, но стиль и синтаксис определяются нейросетью, как при обобщении или перефразировании. Термин должен также охватывать машинный перевод, когда содержание и структура в значительной степени определяются исходным человеческим текстом, но его окончательная, переведённая с иностранного языка, форма была сгенерирована с помощью модели искусственного интеллекта - машинного перевода. Нельзя игнорировать различные случаи, когда текст написан человеком, но «отшлифован» языковой моделью. Либо, наоборот - сгенерирован искусственным интеллектом, но затем отредактирован человеком. Преподавателям в образовательных учреждениях чаще всего приходится сталкиваться с комбо-текстами - в которых часть пишется человеком, а другая часть – «компьютерным разумом». Эти различные типы представляют собой различные проблемы с точки зрения обнаружения искусственной составляющей. Они подразделяются на четыре высокоуровневых класса генерации: произвольные, управляемые, контролируемые и совместные. Эти категории основаны на сходных таксономиях, хотя следует отметить, что границы между классами несколько размыты. При произвольной генерации модель искусственного интеллекта обладает наивысшей степенью свободы в определении, как содержания, так и структуры сгенерированного текста.

Несмотря на то, что пользователь может определить некоторые указания в своём приглашении к диалогу с машиной, на содержание будет сильно влиять языковая модель обучения. Этот тип генерации текста может быть наиболее полезен для развлечения, выполнения творческих задач и мозгового штурма. На практике пользователи, скорее всего, захотят передать системе искусственного интеллекта более конкретные намерения. При управляемой генерации пользователь указывает модели общее сообщение или идею, которые должны быть переданы в выходном тексте. Управляемая генерация потенциально опасна, поскольку позволяет пользователю легко генерировать большое количество текста всего из нескольких слов-подсказок, например, для создания очень убедительной дезинформации.

В более новом поколении систем с управляемыми настройками диалога, осуществляется ещё больший контроль со стороны человека. Здесь указывается полное содержание текста, но языковая модель используется для того, чтобы каким-либо образом модифицировать текст: перефразировать, изменить стиль (возможно, сделать его более профессиональным или более непринуждённым), обобщить/сократить или перевести на другой язык. Этот метод создания контента может быть чрезвычайно эффективным, но требует наличия входного текста (предположительно, написанного человеком, но, возможно, также созданного искусственным интеллектом). На границе между категорией «контролируемые» и следующей категорией, есть промежуточный – «полировка» - то есть, вариант использования, в котором человек-автор вводит свои собственные данные, но использует искусственный интеллект для внесения незначительных изменений, например, для улучшения беглости или читабельности. Такое использование искусственного интеллекта все ещё считается авторским человеческим произведением, поскольку инструменты корректуры могут помочь авторам улучшить изложение своих идей на родном языке. Но при этом, также могут быть дискредитированы системами обнаружения плагиата.

Последняя категория – это «смешанный сценарий» - совместная генерация, когда текст состоит из некоторой комбинации «творчества» человека и машины. К этой категории также относится феномен «киборг-аккаунтов» в социальных сетях, где бот генерирует большую часть исходного контента, а человек берёт на себя обработку ответов и индивидуальных разговоров. Если собрать и объединить все записи из этого аккаунта, то получится особый случай миксования контента.

Тем не менее, методы обнаружения всех этих четырёх категорий, становятся всё более затруднительными, в связи с совершенствованием систем больших языковых моделей. Водяные знаки, статистические закономерности и другие особенности текста, написанного с помощью искусственного интеллекта, могут быть ослаблены или удалены с помощью редактирования и вмешательства человека. В то же время, по мере продвижения по категориям, возрастают затраты времени и усилий на обнаружение истинного авторства, что может побудить пользователей, стремящихся к масштабному созданию автоматизированного контента, использовать в основном произвольные или управляемые методы генерации.

Например, детектор, используемый университетом, может предположить, что в большинстве проблемных случаев для написания эссе на заданную тему использовалась управляемая генерация, хотя возможно, что студент также мог использовать обработанный перевод, «полировку», последующее редактирование или микширование способов. Однако, помимо этого, у преподавателя (экзаменатора) также может быть разная информация о модели искусственного интеллекта, которая использовалась для создания текста. Различные методы обнаружения могут быть более подходящими в зависимости от набора знаний о генерирующей модели и доступа к ней. Однако во многих реальных ситуациях в учёбе, можно с уверенностью предположить, что большинство студентов будут использовать один из примерно дюжины широко доступных LLM, и, следовательно, проблема может быть сведена к серии задач известной модели, где детектор проверяет, был ли текст сгенерирован. Там, где это возможно, при использовании совокупности методов обнаружения известных моделей, специалистам полезно откалибровать методы обнаружения таким образом, чтобы они имели низкую частоту ложных срабатываний.

—

15.05.2025 18:15

141

Москвич