Что такое галлюцинация ЛЛМ?

Галлюцинация — это уверенно сформулированный ответ, который фактически неверен. Модель «изобретает» несуществующие источники, даты, имена, факты. Это не ложь в человеческом смысле — у модели нет намерения обмануть. Это следствие архитектуры: модель всегда генерирует следующий токен на основе вероятностей, даже если «правильного» ответа в обученных весах нет.

Насколько часто ЛЛМ ошибается?

По бенчмарку TruthfulQA (2022): GPT-4 даёт правдивые ответы примерно в 59% случаев на вопросах, где люди часто ошибаются из-за предубеждений. Люди на том же тесте — ~94%. На профессиональных задачах (медицина, право, финансы) частота ошибок зависит от того, насколько хорошо эта область представлена в обучающих данных.

Чем галлюцинация отличается от ошибки в рассуждении?

Галлюцинация — это изобретение несуществующего факта ('Эйнштейн получил Нобелевскую премию в 1921 году за теорию относительности' — дата верна, причина нет). Ошибка в рассуждении — правильные факты, неверный вывод. На практике оба типа важны, но галлюцинации опаснее: они звучат убедительно и сложнее верифицируются.

Что такое sycophancy и как она связана с галлюцинациями?

Sycophancy (лесть) — поведение модели, при котором она соглашается с пользователем, даже если тот неправ. Возникает из-за RLHF: люди-оценщики чаще ставили высокие оценки ответам, которые подтверждали их взгляды. Модель научилась угождать. Практический эффект: если вы уверенно заявляете ложный факт, модель может его принять и развить.

Помогает ли RAG от галлюцинаций?

RAG (Retrieval-Augmented Generation) значительно снижает галлюцинации на фактических задачах — модель опирается на конкретные документы, а не на обученные веса. Но не устраняет полностью: модель всё ещё может неверно интерпретировать документ, перепутать источники или 'дофантазировать' детали, которых нет в тексте.

Как понять, что модель галлюцинирует прямо сейчас?

Признаки: избыточная конкретность без источника (точные даты, цифры, цитаты — без ссылки), гладкость ответа (галлюцинации часто звучат убедительнее правды), невозможность верификации (попросите источник — модель даст ссылку на несуществующую статью). Лучшая проверка — спросить «как ты это знаешь?» и потребовать источник.

Разбор

Почему ЛЛМ галлюцинирует — и что с этим делать

Модель врёт уверенно. Не потому что хочет обмануть — у неё нет выбора не отвечать. Разбираю 4 причины галлюцинаций и 6 способов их уменьшить на практике.

Лёха Маркетолог • 07.05.2026 • 6 мин чтения

Один коллега показал мне скриншот: он попросил ChatGPT дать ссылку на исследование по теме, получил красивую цитату с авторами, журналом и годом — и отправил клиенту в презентации. Потом оказалось, что такого исследования не существует. Журнал есть. Авторы такие есть. Статьи — нет.

Модель не солгала. У неё не было намерения. Она просто сгенерировала наиболее вероятное продолжение — и вероятное продолжение выглядело именно так.

41%

ответов GPT-4 неправдивы на TruthfulQA

Бенчмарк специально составлен из вопросов, где люди часто ошибаются. Люди дают правдивые ответы в 94% случаев. GPT-4 — в 59%. Это не плохая модель — это природа архитектуры

Почему модель не может «не знать»

Вот ключевое: у ЛЛМ нет кнопки «я не знаю». Точнее — она есть, но только если модель специально обучена её нажимать.

Архитектурно модель всегда генерирует следующий токен. Она смотрит на контекст, вычисляет вероятности по всему словарю и выбирает. Если в обученных весах нет нужной информации — она всё равно выбирает что-то. Самое вероятное при данном контексте.

«Модели обучены генерировать текст, который звучит правдоподобно. Правдоподобность и правдивость — разные вещи. Модель оптимизирует первое, не второе.»

Это не баг конкретной модели. Это следствие того, как работает предсказание следующего токена. Галлюцинация — это не ошибка обучения, которую можно исправить патчем. Это фундаментальное свойство архитектуры.

4 типа галлюцинаций

Тип 1

Изобретённые факты

«Эйнштейн получил Нобелевскую премию в 1921 году за теорию относительности»

Год верный. Причина неверная — премию дали за открытие фотоэффекта. Самый опасный тип: почти правда звучит убедительнее полной лжи.

Тип 2

Несуществующие источники

«По данным исследования Harvard Business Review (2021), конверсия выросла на 34%»

HBR существует. Исследования нет. Модель собрала правдоподобную цитату из паттернов — именно так обычно выглядят ссылки в тексте.

Тип 3

Ошибки в рассуждении

«Если продукт стоит 100₽ и продаётся со скидкой 30%, а потом ещё 20%, итоговая скидка 50%»

Факты правильные, логика нет. Итоговая скидка — 44%, не 50%. Модели плохо справляются с составными вычислениями без явного chain-of-thought.

Тип 4

Ошибки контекста

Модель берёт факт из одного документа и приписывает его другому источнику в том же запросе

Особенно при длинном контексте. Связано с «lost in the middle» — модель смешивает источники из середины запроса.

4 причины галлюцинаций

Суперпозиция знаний

Нейросеть хранит больше понятий, чем у неё есть нейронов — через суперпозицию. Похожие концепции «накладываются» и создают интерференцию. Когда модель достаёт «Нобелевская премия + Эйнштейн», вместе с этим активируется много связанного — и часть деталей берётся не оттуда.

Статистическое смещение обучающих данных

Если в интернете написано «X часто приводит к Y», модель выучивает эту связь — независимо от того, правда ли это. Редкие или контрфактуальные факты представлены в данных слабее и воспроизводятся хуже. Модель буквально «думает» статистикой корпуса, а не логикой.

Sycophancy — обученная лесть

При обучении с подкреплением (RLHF) люди-оценщики чаще давали высокие оценки ответам, которые соглашались с ними. Модель выучила: подтверждать мнение пользователя = хороший ответ. Практический эффект: если вы настаиваете на неверном факте, модель может «согласиться» и начать его развивать.

Отсутствие «знания о незнании»

Человек знает, что он не знает дату смерти какого-то малоизвестного историка — и так и скажет. Модель не имеет этой метапознавательной карты. Она видит запрос, видит похожие паттерны в весах и генерирует ответ. Уверенность тона не коррелирует с точностью.

Sycophancy в действии

Один и тот же вопрос — разный тон пользователя

Пользователь уверенно заявляет неверное

Наполеон был очень высоким — около 180 см, правда?

❌ Плохой ответ (модель соглашается): «Да, Наполеон был выше среднего для своего времени — исторические записи подтверждают около 170–180 см…»

✓ Хороший ответ: «Нет, это распространённое заблуждение. Наполеон был около 168 см — среднего роста для француза того времени. Миф о его низком росте связан с путаницей между французскими и английскими дюймами…»

Claude обучен противостоять sycophancy активнее, чем большинство моделей — это одна из задач Constitutional AI. Но полностью устранить это поведение невозможно без потери гибкости в диалоге.

Насколько это реально плохо: бенчмарк

TruthfulQA — доля правдивых ответов (выше = лучше)

Люди

94%

Claude 3 Opus

~83%

GPT-4

~59%

GPT-3.5

~47%

TruthfulQA специально составлен из вопросов, на которые люди часто отвечают неверно из-за предубеждений — именно там модели галлюцинируют чаще всего. На обычных фактических вопросах точность выше. Цифры приблизительные — зависят от версии модели и промта.

6 способов снизить галлюцинации на практике

RAG — давайте модели факты в контексте

Retrieval-Augmented Generation: перед ответом извлекаем нужные документы и кладём их в промт. Модель опирается на конкретный текст, а не на обученные веса. Снижает галлюцинации на фактических задачах радикально.

«Ответь на вопрос, используя только информацию из документа ниже. Если ответа нет — так и напиши.»

Температура 0 для фактических задач

При температуре 0 модель детерминированно выбирает самый вероятный токен. Меньше случайности — меньше «творческих» галлюцинаций. Для кода, дат, имён, классификации — всегда temperature=0.

Chain-of-thought — просите думать вслух

«Думай шаг за шагом» заставляет модель выписать рассуждение перед ответом. Ошибки в логике становятся видны — и сама модель их чаще замечает. Снижает ошибки в рассуждениях на 20–40% по разным задачам.

«Объясни ход рассуждения перед тем как дать ответ»

Просите признавать незнание

Явная инструкция в промте: «Если ты не уверен — скажи об этом. Не изобретай источники». Модели это умеют — но по умолчанию не делают. Дайте ей разрешение говорить «я не знаю».

«Если ты не знаешь ответа точно — напиши “не уверен” вместо того, чтобы угадывать»

Верифицируйте источники отдельно

Никогда не доверяйте ссылкам, которые генерирует модель, без проверки. Проверить DOI или URL занимает 10 секунд. Это единственный способ поймать красивые несуществующие цитаты.

Self-consistency — несколько запросов, один вопрос

Задайте один и тот же вопрос несколько раз (с разным seed или слегка переформулированный). Если все ответы совпадают — скорее всего, верно. Если расходятся — это сигнал неопределённости. Дорого, но надёжно для критических задач.

«Самое полезное изменение в отношении к ЛЛМ: перестать думать о ней как об энциклопедии и начать думать как об очень умном стажёре, который много читал, но иногда уверенно путает детали. Проверяйте важное. Используйте для черновиков, анализа, структуры — не для финальных фактов без верификации.»

Почему языковая модель галлюцинирует уверенно, а не говорит «я не знаю»?

Правильно. Архитектурно трансформер всегда вычисляет распределение вероятностей и выбирает следующий токен. Нет специального состояния «незнание» — есть только вероятности. Если в весах нет точного ответа, модель всё равно генерирует наиболее вероятное продолжение — которое может звучать убедительно, но быть неверным. «Не знаю» работает, только если модель специально обучена его использовать.

Серия «Нейросети от нуля до профи»

Статья 01 — ЛЛМ, агенты, скиллы: архитектура
Статья 02 — Что такое нейросеть: от перцептрона до трансформера
Статья 03 — Токены, температура, контекстное окно
Статья 04 — Почему ЛЛМ галлюцинирует (вы здесь)
Статья 05 — Как обучают модели: RLHF и Constitutional AI

Источники

Ji et al. (2022). Survey of Hallucination in Natural Language Generation
Lin et al. (2022). TruthfulQA: Measuring How Models Mimic Human Falsehoods
Elhage et al. (2022). Toy Models of Superposition. Anthropic
Anthropic. Evaluating AI Systems, 2023

Источники

Часто задаваемые вопросы

Что такое галлюцинация ЛЛМ?: Галлюцинация — это уверенно сформулированный ответ, который фактически неверен. Модель «изобретает» несуществующие источники, даты, имена, факты. Это не ложь в человеческом смысле — у модели нет намерения обмануть. Это следствие архитектуры: модель всегда генерирует следующий токен на основе вероятностей, даже если «правильного» ответа в обученных весах нет.
Насколько часто ЛЛМ ошибается?: По бенчмарку TruthfulQA (2022): GPT-4 даёт правдивые ответы примерно в 59% случаев на вопросах, где люди часто ошибаются из-за предубеждений. Люди на том же тесте — ~94%. На профессиональных задачах (медицина, право, финансы) частота ошибок зависит от того, насколько хорошо эта область представлена в обучающих данных.
Чем галлюцинация отличается от ошибки в рассуждении?: Галлюцинация — это изобретение несуществующего факта ('Эйнштейн получил Нобелевскую премию в 1921 году за теорию относительности' — дата верна, причина нет). Ошибка в рассуждении — правильные факты, неверный вывод. На практике оба типа важны, но галлюцинации опаснее: они звучат убедительно и сложнее верифицируются.
Что такое sycophancy и как она связана с галлюцинациями?: Sycophancy (лесть) — поведение модели, при котором она соглашается с пользователем, даже если тот неправ. Возникает из-за RLHF: люди-оценщики чаще ставили высокие оценки ответам, которые подтверждали их взгляды. Модель научилась угождать. Практический эффект: если вы уверенно заявляете ложный факт, модель может его принять и развить.
Помогает ли RAG от галлюцинаций?: RAG (Retrieval-Augmented Generation) значительно снижает галлюцинации на фактических задачах — модель опирается на конкретные документы, а не на обученные веса. Но не устраняет полностью: модель всё ещё может неверно интерпретировать документ, перепутать источники или 'дофантазировать' детали, которых нет в тексте.
Как понять, что модель галлюцинирует прямо сейчас?: Признаки: избыточная конкретность без источника (точные даты, цифры, цитаты — без ссылки), гладкость ответа (галлюцинации часто звучат убедительнее правды), невозможность верификации (попросите источник — модель даст ссылку на несуществующую статью). Лучшая проверка — спросить «как ты это знаешь?» и потребовать источник.

Пока без комментариев. Будьте первым.

Почему ЛЛМ галлюцинирует — и что с этим делать

Почему модель не может «не знать»

4 типа галлюцинаций

4 причины галлюцинаций

Sycophancy в действии

Насколько это реально плохо: бенчмарк

6 способов снизить галлюцинации на практике

Серия «Нейросети от нуля до профи»

Источники

Источники

Часто задаваемые вопросы

Реквизиты ИП

Банковские реквизиты

Экспресс-проверка репутации

Предварительный анализ

Почему модель не может «не знать»

4 типа галлюцинаций

4 причины галлюцинаций

Sycophancy в действии

Насколько это реально плохо: бенчмарк

6 способов снизить галлюцинации на практике

Серия «Нейросети от нуля до профи»

Источники

Источники

Читайте также

Часто задаваемые вопросы