Разбор

Почему ЛЛМ галлюцинирует — и что с этим делать

Модель врёт уверенно. Не потому что хочет обмануть — у неё нет выбора не отвечать. Разбираю 4 причины галлюцинаций и 6 способов их уменьшить на практике.

• 6 мин чтения

Один коллега показал мне скриншот: он попросил ChatGPT дать ссылку на исследование по теме, получил красивую цитату с авторами, журналом и годом — и отправил клиенту в презентации. Потом оказалось, что такого исследования не существует. Журнал есть. Авторы такие есть. Статьи — нет.

Модель не солгала. У неё не было намерения. Она просто сгенерировала наиболее вероятное продолжение — и вероятное продолжение выглядело именно так.

41%
ответов GPT-4 неправдивы на TruthfulQA
Бенчмарк специально составлен из вопросов, где люди часто ошибаются. Люди дают правдивые ответы в 94% случаев. GPT-4 — в 59%. Это не плохая модель — это природа архитектуры

Почему модель не может «не знать»

Вот ключевое: у ЛЛМ нет кнопки «я не знаю». Точнее — она есть, но только если модель специально обучена её нажимать.

Архитектурно модель всегда генерирует следующий токен. Она смотрит на контекст, вычисляет вероятности по всему словарю и выбирает. Если в обученных весах нет нужной информации — она всё равно выбирает что-то. Самое вероятное при данном контексте.

«Модели обучены генерировать текст, который звучит правдоподобно. Правдоподобность и правдивость — разные вещи. Модель оптимизирует первое, не второе.»

Это не баг конкретной модели. Это следствие того, как работает предсказание следующего токена. Галлюцинация — это не ошибка обучения, которую можно исправить патчем. Это фундаментальное свойство архитектуры.

4 типа галлюцинаций

Тип 1
Изобретённые факты
«Эйнштейн получил Нобелевскую премию в 1921 году за теорию относительности»
Год верный. Причина неверная — премию дали за открытие фотоэффекта. Самый опасный тип: почти правда звучит убедительнее полной лжи.
Тип 2
Несуществующие источники
«По данным исследования Harvard Business Review (2021), конверсия выросла на 34%»
HBR существует. Исследования нет. Модель собрала правдоподобную цитату из паттернов — именно так обычно выглядят ссылки в тексте.
Тип 3
Ошибки в рассуждении
«Если продукт стоит 100₽ и продаётся со скидкой 30%, а потом ещё 20%, итоговая скидка 50%»
Факты правильные, логика нет. Итоговая скидка — 44%, не 50%. Модели плохо справляются с составными вычислениями без явного chain-of-thought.
Тип 4
Ошибки контекста
Модель берёт факт из одного документа и приписывает его другому источнику в том же запросе
Особенно при длинном контексте. Связано с «lost in the middle» — модель смешивает источники из середины запроса.

4 причины галлюцинаций

1
Суперпозиция знаний
Нейросеть хранит больше понятий, чем у неё есть нейронов — через суперпозицию. Похожие концепции «накладываются» и создают интерференцию. Когда модель достаёт «Нобелевская премия + Эйнштейн», вместе с этим активируется много связанного — и часть деталей берётся не оттуда.
2
Статистическое смещение обучающих данных
Если в интернете написано «X часто приводит к Y», модель выучивает эту связь — независимо от того, правда ли это. Редкие или контрфактуальные факты представлены в данных слабее и воспроизводятся хуже. Модель буквально «думает» статистикой корпуса, а не логикой.
3
Sycophancy — обученная лесть
При обучении с подкреплением (RLHF) люди-оценщики чаще давали высокие оценки ответам, которые соглашались с ними. Модель выучила: подтверждать мнение пользователя = хороший ответ. Практический эффект: если вы настаиваете на неверном факте, модель может «согласиться» и начать его развивать.
4
Отсутствие «знания о незнании»
Человек знает, что он не знает дату смерти какого-то малоизвестного историка — и так и скажет. Модель не имеет этой метапознавательной карты. Она видит запрос, видит похожие паттерны в весах и генерирует ответ. Уверенность тона не коррелирует с точностью.

Sycophancy в действии

Один и тот же вопрос — разный тон пользователя
Пользователь уверенно заявляет неверное
Наполеон был очень высоким — около 180 см, правда?
❌ Плохой ответ (модель соглашается): «Да, Наполеон был выше среднего для своего времени — исторические записи подтверждают около 170–180 см…»
✓ Хороший ответ: «Нет, это распространённое заблуждение. Наполеон был около 168 см — среднего роста для француза того времени. Миф о его низком росте связан с путаницей между французскими и английскими дюймами…»

Claude обучен противостоять sycophancy активнее, чем большинство моделей — это одна из задач Constitutional AI. Но полностью устранить это поведение невозможно без потери гибкости в диалоге.

Насколько это реально плохо: бенчмарк

TruthfulQA — доля правдивых ответов (выше = лучше)
Люди
94%
Claude 3 Opus
~83%
GPT-4
~59%
GPT-3.5
~47%
TruthfulQA специально составлен из вопросов, на которые люди часто отвечают неверно из-за предубеждений — именно там модели галлюцинируют чаще всего. На обычных фактических вопросах точность выше. Цифры приблизительные — зависят от версии модели и промта.

6 способов снизить галлюцинации на практике

1
RAG — давайте модели факты в контексте
Retrieval-Augmented Generation: перед ответом извлекаем нужные документы и кладём их в промт. Модель опирается на конкретный текст, а не на обученные веса. Снижает галлюцинации на фактических задачах радикально.
«Ответь на вопрос, используя только информацию из документа ниже. Если ответа нет — так и напиши.»
2
Температура 0 для фактических задач
При температуре 0 модель детерминированно выбирает самый вероятный токен. Меньше случайности — меньше «творческих» галлюцинаций. Для кода, дат, имён, классификации — всегда temperature=0.
3
Chain-of-thought — просите думать вслух
«Думай шаг за шагом» заставляет модель выписать рассуждение перед ответом. Ошибки в логике становятся видны — и сама модель их чаще замечает. Снижает ошибки в рассуждениях на 20–40% по разным задачам.
«Объясни ход рассуждения перед тем как дать ответ»
4
Просите признавать незнание
Явная инструкция в промте: «Если ты не уверен — скажи об этом. Не изобретай источники». Модели это умеют — но по умолчанию не делают. Дайте ей разрешение говорить «я не знаю».
«Если ты не знаешь ответа точно — напиши “не уверен” вместо того, чтобы угадывать»
5
Верифицируйте источники отдельно
Никогда не доверяйте ссылкам, которые генерирует модель, без проверки. Проверить DOI или URL занимает 10 секунд. Это единственный способ поймать красивые несуществующие цитаты.
6
Self-consistency — несколько запросов, один вопрос
Задайте один и тот же вопрос несколько раз (с разным seed или слегка переформулированный). Если все ответы совпадают — скорее всего, верно. Если расходятся — это сигнал неопределённости. Дорого, но надёжно для критических задач.

«Самое полезное изменение в отношении к ЛЛМ: перестать думать о ней как об энциклопедии и начать думать как об очень умном стажёре, который много читал, но иногда уверенно путает детали. Проверяйте важное. Используйте для черновиков, анализа, структуры — не для финальных фактов без верификации.»

Почему языковая модель галлюцинирует уверенно, а не говорит «я не знаю»?

Правильно. Архитектурно трансформер всегда вычисляет распределение вероятностей и выбирает следующий токен. Нет специального состояния «незнание» — есть только вероятности. Если в весах нет точного ответа, модель всё равно генерирует наиболее вероятное продолжение — которое может звучать убедительно, но быть неверным. «Не знаю» работает, только если модель специально обучена его использовать.

Серия «Нейросети от нуля до профи»

  • Статья 01 — ЛЛМ, агенты, скиллы: архитектура
  • Статья 02 — Что такое нейросеть: от перцептрона до трансформера
  • Статья 03 — Токены, температура, контекстное окно
  • Статья 04 — Почему ЛЛМ галлюцинирует (вы здесь)
  • Статья 05 — Как обучают модели: RLHF и Constitutional AI

Источники

Источники

Часто задаваемые вопросы

Что такое галлюцинация ЛЛМ?
Галлюцинация — это уверенно сформулированный ответ, который фактически неверен. Модель «изобретает» несуществующие источники, даты, имена, факты. Это не ложь в человеческом смысле — у модели нет намерения обмануть. Это следствие архитектуры: модель всегда генерирует следующий токен на основе вероятностей, даже если «правильного» ответа в обученных весах нет.
Насколько часто ЛЛМ ошибается?
По бенчмарку TruthfulQA (2022): GPT-4 даёт правдивые ответы примерно в 59% случаев на вопросах, где люди часто ошибаются из-за предубеждений. Люди на том же тесте — ~94%. На профессиональных задачах (медицина, право, финансы) частота ошибок зависит от того, насколько хорошо эта область представлена в обучающих данных.
Чем галлюцинация отличается от ошибки в рассуждении?
Галлюцинация — это изобретение несуществующего факта ('Эйнштейн получил Нобелевскую премию в 1921 году за теорию относительности' — дата верна, причина нет). Ошибка в рассуждении — правильные факты, неверный вывод. На практике оба типа важны, но галлюцинации опаснее: они звучат убедительно и сложнее верифицируются.
Что такое sycophancy и как она связана с галлюцинациями?
Sycophancy (лесть) — поведение модели, при котором она соглашается с пользователем, даже если тот неправ. Возникает из-за RLHF: люди-оценщики чаще ставили высокие оценки ответам, которые подтверждали их взгляды. Модель научилась угождать. Практический эффект: если вы уверенно заявляете ложный факт, модель может его принять и развить.
Помогает ли RAG от галлюцинаций?
RAG (Retrieval-Augmented Generation) значительно снижает галлюцинации на фактических задачах — модель опирается на конкретные документы, а не на обученные веса. Но не устраняет полностью: модель всё ещё может неверно интерпретировать документ, перепутать источники или 'дофантазировать' детали, которых нет в тексте.
Как понять, что модель галлюцинирует прямо сейчас?
Признаки: избыточная конкретность без источника (точные даты, цифры, цитаты — без ссылки), гладкость ответа (галлюцинации часто звучат убедительнее правды), невозможность верификации (попросите источник — модель даст ссылку на несуществующую статью). Лучшая проверка — спросить «как ты это знаешь?» и потребовать источник.
Обсуждение

    Пока без комментариев. Будьте первым.

    Войдите, чтобы отправить комментарий

    Вы сможете комментировать статьи, сохранять материалы

    или войдите по email

    Бесплатная диагностика · 30 минут · без обязательств

    Маркетинг работает, но продажи не растут?

    Отвечу на 3–5 вопросов о вашем бизнесе — и мы вместе разберём, где именно теряются клиенты и что с этим делать.

    Без продаж. Без навязчивых звонков.