Разбор

Промпт-инженерия 2026: 15 техник, которые делают ИИ умнее

F1 65,6 → 91,7 от правильного промпта. Zero-Shot, Few-Shot, CoT, RAG, ReAct и 10 других техник с примерами и квизом выбора подходящей. По Prompt Engineering Guide (dair-ai), перевод @prompt_design.

• 7 мин чтения

Четыре слова, которые изменили точность ИИ

«Let’s think step by step» — фраза из исследования Kojima et al. (2022). Добавьте её в конец любого промпта, и модель начнёт рассуждать вслух, а не угадывать ответ. Казалось бы, мелочь.

Но главное число из этого руководства — другое.

F1 65,6 → F1 91,7

рост точности классификации от оптимизации промпта — без изменения модели, без дообучения, только правильная инструкция

Clavié et al. (2023), классификация вакансий — базовый промпт vs оптимизированный

Промпт-инженерия — это не «лайфхаки для ChatGPT». Это дисциплина, у которой есть техники, параметры и измеримые результаты.

Анатомия хорошего промпта: 4 элемента

Промпт не обязан содержать все четыре — состав зависит от задачи. Но понять каждый важно.

📋
Инструкция

Конкретная задача для модели: Classify, Summarize, Translate, Write

📚
Контекст

Внешняя информация, направляющая модель к лучшим ответам

Входные данные

Вопрос или данные, для которых нужен ответ

📐
Формат вывода

Тип или формат ожидаемого ответа (JSON, список, одно слово)

Параметры LLM: что крутить и зачем

При работе с LLM через API доступны параметры, напрямую влияющие на качество и характер ответов.

ПараметрЧто делаетКогда менять
temperatureДетерминированность vs креативность ответов↓ для фактических задач (QA) · ↑ для творческих
top_pNucleus sampling — контроль разнообразия токенов↓ точные/фактические · ↑ разнообразные ответы
max_lengthОграничение количества генерируемых токеновДлинные ответы / контроль расходов
stop_sequencesСтрока, при которой модель прекращает генерациюУправление структурой ответа
frequency_penaltyШтраф за повторение токенов пропорционально частотеКогда модель «зациклилась»
presence_penaltyРавномерный штраф за все повторения независимо от частотыДля разнообразного текста

Правило: меняйте temperature ИЛИ top_p — не оба одновременно. То же с frequency_penalty и presence_penalty.

5 советов по написанию промптов

Совет 01
Начинайте просто

Промптинг — итеративный процесс. Начните с простого промпта, постепенно добавляйте контекст. Большие задачи разбивайте на подзадачи.

Совет 02
Используйте чёткую инструкцию

Команды: Write, Classify, Summarize, Translate, Order. Ставьте инструкцию в начало. Разделяйте инструкцию и контекст символами ### или ---.

Совет 03
Будьте конкретны

Чем детальнее и описательнее промпт — тем лучше результат. Указывайте желаемый формат вывода явно. Примеры в промпте задают ожидаемый формат ответа.

Совет 04
Избегайте расплывчатости

Не «объясни кратко» — а «объясни в 2–3 предложениях». Конкретность = предсказуемость. Расплывчатость = разнобой в ответах.

Совет 05
Делать, не «не делать»

Формулируйте через желаемое поведение. Вместо «DON’T ASK FOR INTERESTS» — «refrain from asking users for their preferences». Запреты работают хуже инструкций.

15 техник промптинга: фильтруй по уровню

Zero-Shot
Базовый

Прямая инструкция без примеров. Современные LLM (GPT-4, Claude) обучены на таком объёме данных, что справляются без демонстраций.

→ Когда: задача стандартная, модель мощная
«Classify the text into neutral, negative or positive. Text: I think the vacation is okay. Sentiment:» → Neutral
Few-Shot
Базовый

Несколько демонстраций в промпте направляют модель к нужному формату и поведению. Задействует in-context learning. Формат важнее правильности меток.

→ Когда: нужен специфический формат, zero-shot не справляется
По Min et al. (2022): даже случайные метки лучше, чем их отсутствие
Chain-of-Thought (CoT)
Средний

Промежуточные шаги рассуждения в примерах заставляют модель думать вслух. Резко улучшает результаты на логических и математических задачах. Только в крупных моделях.

→ Когда: математика, рассуждения, сложные задачи
Wei et al. (2022): самостоятельная способность крупных LLM
Zero-shot CoT
Средний

Самый простой трюк: добавьте «Let’s think step by step» в конец промпта. Модель сама выстраивает цепочку рассуждений без примеров.

→ Когда: нет примеров, нужны рассуждения
Kojima et al. (2022): 4 слова — серьёзный прирост точности
Self-Consistency
Средний

Несколько разных цепочек рассуждений генерируются через few-shot CoT. Выбирается наиболее согласованный ответ. Заменяет жадное декодирование.

→ Когда: нужна максимальная точность, критические задачи
«Мне было 6, сестре — вдвое меньше. Мне 70. Сколько ей?» → без CoT: 35 (неверно); с self-consistency: 67 (верно)
Generated Knowledge
Средний

Модель сначала генерирует релевантные факты по теме, затем использует их для ответа. Решает проблему ошибочных ответов из-за нехватки контекста.

→ Когда: фактические вопросы без внешней БД
Liu et al. (2022): вопрос о гольфе — без знаний модель ошибается, после генерации знаний — правильно
RAG
Средний

Извлекает релевантные документы из внешней базы → объединяет с промптом → генерирует ответ. Снижает галлюцинации, адаптируется к актуальным данным.

→ Когда: работа с документами, корпоративной базой знаний
Meta AI: RAG адаптивна к ситуациям, когда факты меняются со временем
Prompt Chaining
Средний

Задача разбивается на подзадачи. Ответ одного промпта — вход для следующего. Лучше для сложных задач, прозрачность, простая отладка.

→ Когда: сложный многоэтапный пайплайн
Пример: промпт 1 — извлечь цитаты из документа; промпт 2 — ответить на основе цитат
Tree of Thoughts (ToT)
Продвинутый

Обобщает CoT — модель поддерживает дерево мыслей. Может оценивать прогресс в промежуточных шагах. Алгоритмы BFS/DFS для систематического исследования.

→ Когда: комплексные задачи планирования и рассуждений
Yao et al. (2023). Быстрая версия — одним промптом: «Imagine three different experts answering this…»
ReAct
Продвинутый

LLM поочерёдно генерирует рассуждения и действия. Рассуждения — для планов. Действия — для взаимодействия с внешними источниками (поиск, API, базы данных).

→ Когда: агентские системы с инструментами
Yao et al. (2022): превосходит CoT на Fever. Лучший результат: ReAct + CoT + Self-Consistency
Reflexion
Продвинутый

Усиление агентов через лингвистическую обратную связь. Агент анализирует прошлые действия (саморефлексия) и учитывает это в следующем эпизоде. Три компонента: Актёр, Оценщик, Саморефлексия.

→ Когда: агент должен учиться на ошибках, нужна интерпретируемость
Shinn et al. (2023): улучшения на AlfWorld, HotPotQA, HumanEval, MBPP
APE (Automatic Prompt Engineer)
Продвинутый

Автоматически генерирует и отбирает инструкции. Обнаружил промпт, превосходящий человеческий «Let’s think step by step» на бенчмарках MultiArith и GSM8K.

→ Когда: нужно оптимизировать промпт систематически
Zhou et al. (2022): нашёл «Let’s work this out in a step by step way to be sure we have the right answer»
ART
Продвинутый

Автоматически генерирует промежуточные шаги рассуждений. Выбирает демонстрации из библиотеки задач, при тестировании останавливается для вызова внешних инструментов.

→ Когда: сложные задачи с инструментами без ручной настройки
Paranjape et al. (2023): существенно превосходит few-shot и auto-CoT на BigBench и MMLU
Meta Prompting
Продвинутый

Фокус на структурных и синтаксических аспектах задач, а не на содержании. Абстрактные примеры, категориальный подход. Экономит токены vs few-shot.

→ Когда: нужна универсальная техника для разных задач
Zhang et al. (2024): честное сравнение моделей, эффективна в zero-shot режиме
PAL (Program-Aided LM)
Продвинутый

LLM генерирует программу (код) как промежуточные шаги рассуждений. Решение делегируется программной среде (Python). Точнее CoT для вычислительных задач.

→ Когда: математика, даты, вычисления — где код точнее слов
Gao et al. (2022): вопрос о дате → LLM пишет Python → код запускается → точный ответ

Квиз: какую технику выбрать для вашей задачи?

Вопрос 1 из 3

Ключевые выводы из исследований

Правильные инструкции критичны. Кейс Clavié et al. (2023) по классификации вакансий: F1 65,6 (базовый промпт) → F1 91,7 (оптимизированный). Что сработало: чёткие инструкции, повторение ключевых моментов (reiteration), присвоение имени модели (+0,6 F1). А Few-shot CoT для несложных задач показал результаты хуже Zero-shot — добавление примеров не всегда помогает.

Параметры важнее, чем кажется. Temperature и Top P — разные механизмы одного и того же. Меняйте только один. Для маркетинговых текстов: temperature 0.7–0.9. Для фактических выжимок: temperature 0.1–0.3.

Prompt Chaining > один длинный промпт. Разбивка задачи на шаги даёт прозрачность, лёгкую отладку и лучшие результаты. Пример: шаг 1 — извлечь ключевые цитаты, шаг 2 — написать резюме на их основе.

$55 за 50 000 синтетических документов для RAG (Dai et al., 2022) — с GPT-3.5 Turbo. Существенно дешевле ручной разметки и даёт результаты, близкие к SOTA для задачно-специфического поиска.

Главный вывод: промпт-инженерия — это не разовый хак, а навык. Начните с Zero-Shot, добавьте «Let’s think step by step» для рассуждений, используйте Few-Shot когда нужен формат, RAG когда нужны внешние данные. Остальное — по мере роста задач.

Это Лёха Маркетолог — разбираю инструменты честно, с цифрами.


Источники:

  1. Prompt Engineering Guide — dair-ai. github.com/dair-ai
  2. Wei et al. (2022) — Chain-of-Thought Prompting Elicits Reasoning in LLMs.
  3. Yao et al. (2022) — ReAct: Synergizing Reasoning and Acting.
  4. Clavié et al. (2023) — Large Language Models in the Workplace.
  5. Перевод: @prompt_design, март 2026.

Источники

Часто задаваемые вопросы

Что такое промпт-инженерия и зачем она нужна?
Промпт-инженерия — дисциплина разработки и оптимизации промптов для эффективной работы с большими языковыми моделями (LLM). Она помогает понять возможности и ограничения LLM, повысить безопасность и производительность моделей в задачах от ответов на вопросы до арифметических рассуждений. Главный результат: правильный промпт может поднять точность модели с F1 65,6 до F1 91,7 — без изменения самой модели (Clavié et al., 2023).
Чем Chain-of-Thought (CoT) отличается от обычного промптинга?
Chain-of-Thought (CoT) промптинг (Wei et al., 2022) добавляет промежуточные шаги рассуждения, позволяя модели «думать вслух» перед ответом. Обычный промпт даёт задачу напрямую — модель отвечает сразу. CoT заставляет раскладывать задачу на подзадачи. Самый простой способ применить CoT — добавить в конец промпта фразу «Let's think step by step» (Zero-shot CoT, Kojima et al., 2022). Это работает только в достаточно крупных моделях.
Когда использовать Few-Shot, а когда Zero-Shot промптинг?
Zero-Shot: когда задача понятна и модель хорошо обучена — просто дайте инструкцию без примеров. Few-Shot: когда нужен специфический формат вывода, задача нестандартная или нужна более высокая точность. По Min et al. (2022), даже случайные метки в примерах лучше, чем их отсутствие — формат важнее правильности примеров. Начните с Zero-Shot, и если результат неудовлетворительный — добавьте 2-5 примеров (few-shot).
Что такое RAG и зачем он нужен?
RAG (Retrieval Augmented Generation) — метод, предложенный Meta AI, объединяющий поиск информации с генеративной моделью. RAG принимает запрос, извлекает релевантные документы из внешнего источника (например, Wikipedia или корпоративной базы знаний), объединяет их с исходным промптом и передаёт генератору для финального ответа. RAG снижает галлюцинации, повышает фактическую точность и адаптируется к ситуациям, когда факты меняются со временем.
Какие параметры LLM влияют на качество ответов?
Шесть ключевых параметров: Temperature (ниже = детерминированнее, выше = креативнее; для фактических задач — низкая, для творческих — высокая), Top P (аналогично, но через nucleus sampling), Max Length (ограничение токенов), Stop Sequences (строка остановки генерации), Frequency Penalty (штраф за повторение токенов пропорционально частоте), Presence Penalty (равномерный штраф за все повторения). Важно: меняйте temperature ИЛИ top_p, но не оба одновременно.
Что такое ReAct промптинг и как он работает?
ReAct (Yao et al., 2022) — фреймворк, где LLM поочерёдно генерирует цепочки рассуждений и действия. Рассуждения позволяют модели индуцировать, отслеживать и обновлять планы действий. Действия обеспечивают взаимодействие с внешними источниками (базы знаний, среды). ReAct превосходит CoT на задаче Fever (проверка фактов). Лучшие результаты даёт комбинация ReAct + CoT + Self-Consistency. Подходит для агентских систем с доступом к инструментам.
Обсуждение

    Пока без комментариев. Будьте первым.

    Войдите, чтобы отправить комментарий

    Вы сможете комментировать статьи, сохранять материалы

    или войдите по email

    Бесплатная диагностика · 30 минут · без обязательств

    Маркетинг работает, но продажи не растут?

    Отвечу на 3–5 вопросов о вашем бизнесе — и мы вместе разберём, где именно теряются клиенты и что с этим делать.

    Без продаж. Без навязчивых звонков.