Разбор
Токены, температура, контекстное окно: что происходит внутри ЛЛМ
Русский текст стоит в 1.5 раза дороже английского. 200 000 токенов — это 450 страниц, но модель хуже читает середину. Температура — это не «креативность». Разбираю механику ЛЛМ, которую не объясняют в туториалах.
Одна вещь, которая меня удивила когда я разобрался: использовать ЛЛМ на русском реально дороже, чем на английском. Не потому что Anthropic так решил. Просто русские слова занимают больше токенов.
Если вы платите за API — вы платите за токены. И русский текст содержит примерно в 1.5–2 раза больше токенов, чем аналогичный английский. Это не баг, это устройство токенизатора.
Разбираю три вещи, которые реально важно понимать: токены, контекстное окно и температуру.
Что такое токен
Токен — это не слово и не буква. Это кусок текста, который модель обрабатывает как единицу. Размер зависит от частоты встречаемости в обучающих данных: частые слова — один токен, редкие — несколько.
Практические следствия:
Для API: запрос на 1000 слов по-русски будет стоить как запрос на ~1500 слов по-английски. Если вы строите продукт с русскоязычными пользователями — закладывайте это в юнит-экономику.
Для промтов: длинные системные инструкции, вставленные документы, история диалога — всё это токены. Всё это влезает в контекстное окно и стоит денег.
Правило большого пальца: 1 токен ≈ 4 символа в английском, ≈ 2.5–3 символа в русском.
Контекстное окно: сколько влезает
Контекстное окно — это всё, что модель видит за один запрос. System prompt + история диалога + ваш вопрос + ответ модели. Всё вместе.
200K токенов Claude ≈ 450 страниц текста ≈ вся «Война и мир» (580K слов в английском переводе ≈ 780K токенов — не влезает, но роман Достоевского «Братья Карамазовы» — влезает).
Контекстное окно — не «память». Это важно понять. Модель не помнит прошлые разговоры — она просто читает всё, что вы ей передаёте, каждый раз заново. Увеличиваете историю диалога — растут токены — растёт цена.
Что занимает окно
Lost in the middle — проблема, о которой мало говорят
Исследование Stanford 2023 года показало неудобную вещь: языковые модели хуже используют информацию из середины длинного контекста.
Модели лучше «помнят» информацию с начала (primacy effect) и конца (recency effect) запроса. Середина длинного контекста теряется. Практический вывод: важные инструкции — в начало system prompt или в конец запроса, не в середину большого документа.
Есть вопрос по теме?
Разберу вашу ситуацию и предложу конкретный шаг
Температура: что это на самом деле
Большинство объяснений говорят: «температура = креативность». Это не совсем точно.
Когда модель генерирует следующий токен, она вычисляет вероятность для каждого возможного следующего слова. Получается распределение: «кот» — 34%, «пёс» — 22%, «стол» — 8%, и так далее для десятков тысяч токенов.
Температура масштабирует это распределение:
Это не «творческий режим». Это управление случайностью. При высокой температуре модель буквально чаще бросает кубик в сторону менее очевидных слов.
Температура на практике
«Модели работают лучше при низкой температуре на задачах с правильным ответом, и при более высокой — на задачах без единственно верного ответа. Но “выше = лучше для творчества” — это миф. Выше — это просто менее предсказуемо.»
Как это влияет на промтинг
Три практических вывода:
1. Важное — в начало или конец. Lost in the middle — реальная проблема. Если вы вставляете большой документ и хотите, чтобы модель ответила точно — задайте вопрос до документа (в начале) или повторите его после (в конце).
2. Системный промт — это платный input. Каждый раз при запросе весь system prompt заново уходит в API. 2000-токенный системный промт × 10 000 запросов в месяц = 20 миллионов токенов. Используйте prompt caching, если API его поддерживает.
3. Температуру трогайте осознанно. Дефолт большинства API — 1.0. Для задач, где нужен точный ответ (код, данные, классификация), опустите до 0–0.3. Для текстов оставьте 0.7. Для эксперимента поднимайте.
Правильно. Токенизатор обучен преимущественно на английском тексте, поэтому английские слова чаще попадают в словарь как единые токены. Русские слова нарезаются на большее количество кусков. Одно и то же смысловое содержание на русском занимает в 1.5–2 раза больше токенов — и стоит пропорционально дороже при оплате API.
Что дальше в серии
- Статья 01 — ЛЛМ, агенты, скиллы: архитектура
- Статья 02 — Что такое нейросеть: от перцептрона до трансформера
- Статья 03 — Токены, температура, контекстное окно (вы здесь)
- Статья 04 — Почему ЛЛМ галлюцинирует и что с этим делать
Есть вопрос по теме?
Разберу вашу ситуацию и предложу конкретный шаг
Источники
- OpenAI Cookbook. How to count tokens with tiktoken
- Anthropic. Claude 3 Haiku: our fastest model yet, 2024
- Liu et al., Stanford. Lost in the Middle: How Language Models Use Long Contexts, 2023
- Elhage et al., Anthropic. A Mathematical Framework for Transformer Circuits, 2021
AI-агенты · Персональное кураторство
Хочешь разобраться с AI-агентами?
Получи персональную карту входа за 5 минут в Telegram-боте
Получить карту AI-агентов →AI-агенты · Персональная карта
4 часа потратил — не работает?
Покажу где ты пошёл не туда и как сделать правильно за 2 недели
Получить разбор бесплатно →Есть вопрос по теме?
Разберу вашу ситуацию и предложу конкретный шаг
Источники
Читайте также
Часто задаваемые вопросы
- Сколько токенов в одном слове?
- В среднем для английского — около 0.75 слова на токен, то есть примерно 1.3 токена на слово. Правило большого пальца: 1 токен ≈ 4 символа в английском. Русский менее эффективен: то же самое слово занимает примерно в 1.5–2 раза больше токенов. Цифры и знаки препинания тоже считаются отдельными токенами.
- Что такое контекстное окно и почему оно важно?
- Контекстное окно — максимальное количество токенов, которое модель может обработать за один запрос (system prompt + история диалога + ваш вопрос + ответ модели). Claude 3.5/3.7 Sonnet: 200 000 токенов ≈ 450 страниц текста. GPT-4o: 128 000 токенов. Gemini 1.5 Pro: 1 000 000 токенов. Всё, что выходит за окно, модель просто не видит.
- Что такое температура в ЛЛМ?
- Температура — параметр от 0 до 2, который масштабирует распределение вероятностей над следующим токеном. При температуре 0 модель всегда выбирает самый вероятный токен (детерминированный вывод). При высокой температуре распределение «сглаживается» — модель чаще выбирает менее очевидные варианты. Это не «креативность» — это управление случайностью выбора.
- Что такое 'lost in the middle' и как это влияет на промтинг?
- Исследование Stanford (2023) показало: языковые модели хуже используют информацию, которая находится в середине длинного контекста. Лучше всего модель помнит начало (primacy effect) и конец (recency effect) запроса. Вывод для практики: важные инструкции и контекст — в начало или конец промта, не в середину.
- Чем top-p отличается от температуры?
- Температура масштабирует всё распределение вероятностей. Top-p (nucleus sampling) — ограничивает выборку токенами, чья суммарная вероятность не превышает p. При top-p=0.9 модель рассматривает только те токены, которые в сумме дают 90% вероятности, игнорируя редкие. Оба параметра управляют «случайностью», но по-разному. На практике чаще трогают температуру.
- Почему один и тот же запрос стоит по-разному?
- Цена API считается в токенах: отдельно за input (ваш запрос) и output (ответ модели). Claude 3.7 Sonnet: $3 за 1M input токенов и $15 за 1M output токенов. Русский текст содержит в 1.5–2 раза больше токенов, чем аналогичный английский — то есть реально дороже. Длинные системные промты, большой контекст — всё это платный input.
Канал «Лёха Маркетолог»
Практика без воды: кейсы, инсайты, разборы. 1–2 поста в неделю.
Пока без комментариев. Будьте первым.