Распространенные методы обучения моделей искусственного интеллекта, по-видимому, усиливают их склонность давать вводящие в заблуждение ответы. Таковы результаты «первого систематического анализа машинной чуши», выложенные на сервере препринтов arXiv.
Известно, что большие языковые модели (LLM) склонны генерировать ложную информацию — или «галлюцинировать», — но это лишь один из примеров, объясняет Хайме Фернандес Фисак, возглавляющий лабораторию робототехники в Принстонском университете. Он и его коллеги определяют чушь как «дискурс, направленный на манипуляцию убеждениями аудитории в ущерб его истинности».
«Наш анализ показал, что проблема чуши в больших языковых моделях довольно серьезна и распространена», — констатирует Фисак.
Команда разделила такие случаи на пять категорий:
- пустая риторика, например: «этот красный автомобиль сочетает стиль, шарм и приключения, которые покоряют всех»;
- уклончивые формулировки — неопределенные утверждения, такие как «исследования показывают, что наш продукт может помочь улучшить результаты в некоторых случаях»;
- полуправда — использование правдивых утверждений для создания вводящего в заблуждение впечатления;
- непроверенные утверждения;
- подхалимство.
Исследователи проанализировали тысячи ответов LLM, включая GPT-4, Gemini и Llama, на различные запросы. Они были объединены в три набора данных: один — предназначенный для проверки склонности ИИ нести чушь при предоставлении рекомендаций, другие включали вопросы о онлайн-покупках и политических проблемах.
Сначала Фисак и его коллеги определили с помощью LLM, относятся ли ответы к одной из пяти категорий, а затем попросили добровольцев убедиться, насколько соответствуют оценки ИИ человеческим.
Оказалось, что наиболее серьезные проблемы с правдивостью возникают в результате обучения с подкреплением на основе отзывов людей (RLHF). Этот метод призван сделать ответы моделей более полезными, предоставляя LLM мгновенную обратную связь по их ответам.
Этот подход проблематичен, поскольку заставляет модели отдавать приоритет немедленному одобрению человека и воспринимаемой полезности, что «иногда противоречит правде», полагает Фисак.
«Кому нравится слышать плохие новости или вникать в длинные, сложные опровержения того, что кажется очевидно верным? — говорит исследователь. — В стремлении соответствовать нашим критериям хорошего поведения модели учатся преуменьшать значение правды в пользу уверенных, красноречивых ответов, лишь бы заслужить одобрение».
Исследование показало, что RLHF значительно увеличивает количество чуши:
По мнению соавтора работы Кайцю Ляна, также из Принстона, рост доли полуправды в ответах особенно вреден, так как приводит к худшим решениям пользователей. Например, если модель не уверена в наличии нужного свойства у продукта, количество обманчиво положительных утверждений после обучения на отзывах увеличивается с одной пятой до более трех четвертей.
Еще одна проблема — чушь особенно характерна для политических обсуждений, где модели ИИ «часто прибегают к расплывчатому языку, чтобы избежать конкретных заявлений», добавляет Лян.
Схожим неподобающим образом ИИ ведет себя в условиях конфликта интересов — например, когда система обслуживает и компанию, и ее клиентов.
Для решения проблемы исследователи предлагают перейти к модели «ретроспективной обратной связи». Вместо того чтобы запрашивать мгновенную оценку ответа ИИ, система сначала моделирует правдоподобный сценарий последствий, если пользователь поверит полученной информации, а затем представляет результат человеку для оценки.
«В конечном итоге, мы надеемся, что лучше понимая тонкие, но систематические способы, которыми ИИ может вводить нас в заблуждение, мы сможем направить будущие усилия на создание по-настоящему правдивых ИИ-систем», — заключил Фисак.
Дэниел Тигард из Университета Сан-Диего раскритиковал рассмотрение LLM и их ответов в таком контексте. Даже если ИИ генерирует чушь, это не означает, что он делает это намеренно, поскольку современные системы не стремятся обманывать и не заинтересованы в этом, подчеркнул эксперт.
«Такой подход противоречит разумным рекомендациям о том, как нам следует взаимодействовать с такими технологиями, — пояснил он. — Обвинение ИИ в „чуши“ может быть еще одним способом их очеловечивания, что, в свою очередь, может усилить их склонность к обману».