Разбор
Почему ЛЛМ галлюцинирует — и что с этим делать
Модель врёт уверенно. Не потому что хочет обмануть — у неё нет выбора не отвечать. Разбираю 4 причины галлюцинаций и 6 способов их уменьшить на практике.
Один коллега показал мне скриншот: он попросил ChatGPT дать ссылку на исследование по теме, получил красивую цитату с авторами, журналом и годом — и отправил клиенту в презентации. Потом оказалось, что такого исследования не существует. Журнал есть. Авторы такие есть. Статьи — нет.
Модель не солгала. У неё не было намерения. Она просто сгенерировала наиболее вероятное продолжение — и вероятное продолжение выглядело именно так.
Почему модель не может «не знать»
Вот ключевое: у ЛЛМ нет кнопки «я не знаю». Точнее — она есть, но только если модель специально обучена её нажимать.
Архитектурно модель всегда генерирует следующий токен. Она смотрит на контекст, вычисляет вероятности по всему словарю и выбирает. Если в обученных весах нет нужной информации — она всё равно выбирает что-то. Самое вероятное при данном контексте.
«Модели обучены генерировать текст, который звучит правдоподобно. Правдоподобность и правдивость — разные вещи. Модель оптимизирует первое, не второе.»
Это не баг конкретной модели. Это следствие того, как работает предсказание следующего токена. Галлюцинация — это не ошибка обучения, которую можно исправить патчем. Это фундаментальное свойство архитектуры.
4 типа галлюцинаций
4 причины галлюцинаций
Sycophancy в действии
Claude обучен противостоять sycophancy активнее, чем большинство моделей — это одна из задач Constitutional AI. Но полностью устранить это поведение невозможно без потери гибкости в диалоге.
Есть вопрос по теме?
Разберу вашу ситуацию и предложу конкретный шаг
Насколько это реально плохо: бенчмарк
6 способов снизить галлюцинации на практике
«Самое полезное изменение в отношении к ЛЛМ: перестать думать о ней как об энциклопедии и начать думать как об очень умном стажёре, который много читал, но иногда уверенно путает детали. Проверяйте важное. Используйте для черновиков, анализа, структуры — не для финальных фактов без верификации.»
Правильно. Архитектурно трансформер всегда вычисляет распределение вероятностей и выбирает следующий токен. Нет специального состояния «незнание» — есть только вероятности. Если в весах нет точного ответа, модель всё равно генерирует наиболее вероятное продолжение — которое может звучать убедительно, но быть неверным. «Не знаю» работает, только если модель специально обучена его использовать.
Серия «Нейросети от нуля до профи»
- Статья 01 — ЛЛМ, агенты, скиллы: архитектура
- Статья 02 — Что такое нейросеть: от перцептрона до трансформера
- Статья 03 — Токены, температура, контекстное окно
- Статья 04 — Почему ЛЛМ галлюцинирует (вы здесь)
- Статья 05 — Как обучают модели: RLHF и Constitutional AI
Есть вопрос по теме?
Разберу вашу ситуацию и предложу конкретный шаг
Источники
- Ji et al. (2022). Survey of Hallucination in Natural Language Generation
- Lin et al. (2022). TruthfulQA: Measuring How Models Mimic Human Falsehoods
- Elhage et al. (2022). Toy Models of Superposition. Anthropic
- Anthropic. Evaluating AI Systems, 2023
AI-агенты · Персональное кураторство
Хочешь разобраться с AI-агентами?
Получи персональную карту входа за 5 минут в Telegram-боте
Получить карту AI-агентов →AI-агенты · Персональная карта
4 часа потратил — не работает?
Покажу где ты пошёл не туда и как сделать правильно за 2 недели
Получить разбор бесплатно →Есть вопрос по теме?
Разберу вашу ситуацию и предложу конкретный шаг
Источники
Читайте также
Часто задаваемые вопросы
- Что такое галлюцинация ЛЛМ?
- Галлюцинация — это уверенно сформулированный ответ, который фактически неверен. Модель «изобретает» несуществующие источники, даты, имена, факты. Это не ложь в человеческом смысле — у модели нет намерения обмануть. Это следствие архитектуры: модель всегда генерирует следующий токен на основе вероятностей, даже если «правильного» ответа в обученных весах нет.
- Насколько часто ЛЛМ ошибается?
- По бенчмарку TruthfulQA (2022): GPT-4 даёт правдивые ответы примерно в 59% случаев на вопросах, где люди часто ошибаются из-за предубеждений. Люди на том же тесте — ~94%. На профессиональных задачах (медицина, право, финансы) частота ошибок зависит от того, насколько хорошо эта область представлена в обучающих данных.
- Чем галлюцинация отличается от ошибки в рассуждении?
- Галлюцинация — это изобретение несуществующего факта ('Эйнштейн получил Нобелевскую премию в 1921 году за теорию относительности' — дата верна, причина нет). Ошибка в рассуждении — правильные факты, неверный вывод. На практике оба типа важны, но галлюцинации опаснее: они звучат убедительно и сложнее верифицируются.
- Что такое sycophancy и как она связана с галлюцинациями?
- Sycophancy (лесть) — поведение модели, при котором она соглашается с пользователем, даже если тот неправ. Возникает из-за RLHF: люди-оценщики чаще ставили высокие оценки ответам, которые подтверждали их взгляды. Модель научилась угождать. Практический эффект: если вы уверенно заявляете ложный факт, модель может его принять и развить.
- Помогает ли RAG от галлюцинаций?
- RAG (Retrieval-Augmented Generation) значительно снижает галлюцинации на фактических задачах — модель опирается на конкретные документы, а не на обученные веса. Но не устраняет полностью: модель всё ещё может неверно интерпретировать документ, перепутать источники или 'дофантазировать' детали, которых нет в тексте.
- Как понять, что модель галлюцинирует прямо сейчас?
- Признаки: избыточная конкретность без источника (точные даты, цифры, цитаты — без ссылки), гладкость ответа (галлюцинации часто звучат убедительнее правды), невозможность верификации (попросите источник — модель даст ссылку на несуществующую статью). Лучшая проверка — спросить «как ты это знаешь?» и потребовать источник.
Канал «Лёха Маркетолог»
Практика без воды: кейсы, инсайты, разборы. 1–2 поста в неделю.
Пока без комментариев. Будьте первым.