Сколько токенов в одном слове?

В среднем для английского — около 0.75 слова на токен, то есть примерно 1.3 токена на слово. Правило большого пальца: 1 токен ≈ 4 символа в английском. Русский менее эффективен: то же самое слово занимает примерно в 1.5–2 раза больше токенов. Цифры и знаки препинания тоже считаются отдельными токенами.

Что такое контекстное окно и почему оно важно?

Контекстное окно — максимальное количество токенов, которое модель может обработать за один запрос (system prompt + история диалога + ваш вопрос + ответ модели). Claude 3.5/3.7 Sonnet: 200 000 токенов ≈ 450 страниц текста. GPT-4o: 128 000 токенов. Gemini 1.5 Pro: 1 000 000 токенов. Всё, что выходит за окно, модель просто не видит.

Что такое температура в ЛЛМ?

Температура — параметр от 0 до 2, который масштабирует распределение вероятностей над следующим токеном. При температуре 0 модель всегда выбирает самый вероятный токен (детерминированный вывод). При высокой температуре распределение «сглаживается» — модель чаще выбирает менее очевидные варианты. Это не «креативность» — это управление случайностью выбора.

Что такое 'lost in the middle' и как это влияет на промтинг?

Исследование Stanford (2023) показало: языковые модели хуже используют информацию, которая находится в середине длинного контекста. Лучше всего модель помнит начало (primacy effect) и конец (recency effect) запроса. Вывод для практики: важные инструкции и контекст — в начало или конец промта, не в середину.

Чем top-p отличается от температуры?

Температура масштабирует всё распределение вероятностей. Top-p (nucleus sampling) — ограничивает выборку токенами, чья суммарная вероятность не превышает p. При top-p=0.9 модель рассматривает только те токены, которые в сумме дают 90% вероятности, игнорируя редкие. Оба параметра управляют «случайностью», но по-разному. На практике чаще трогают температуру.

Почему один и тот же запрос стоит по-разному?

Цена API считается в токенах: отдельно за input (ваш запрос) и output (ответ модели). Claude 3.7 Sonnet: $3 за 1M input токенов и $15 за 1M output токенов. Русский текст содержит в 1.5–2 раза больше токенов, чем аналогичный английский — то есть реально дороже. Длинные системные промты, большой контекст — всё это платный input.

Разбор

Токены, температура, контекстное окно: что происходит внутри ЛЛМ

Русский текст стоит в 1.5 раза дороже английского. 200 000 токенов — это 450 страниц, но модель хуже читает середину. Температура — это не «креативность». Разбираю механику ЛЛМ, которую не объясняют в туториалах.

Лёха Маркетолог • 07.05.2026 • 5 мин чтения

Одна вещь, которая меня удивила когда я разобрался: использовать ЛЛМ на русском реально дороже, чем на английском. Не потому что Anthropic так решил. Просто русские слова занимают больше токенов.

Если вы платите за API — вы платите за токены. И русский текст содержит примерно в 1.5–2 раза больше токенов, чем аналогичный английский. Это не баг, это устройство токенизатора.

Разбираю три вещи, которые реально важно понимать: токены, контекстное окно и температуру.

200 000

токенов — контекстное окно Claude 3.5/3.7

Это ~450 страниц текста, 15 научных статей или вся «Война и мир» целиком — в одном запросе. Claude Haiku обрабатывает 21 000 токенов в секунду

Что такое токен

Токен — это не слово и не буква. Это кусок текста, который модель обрабатывает как единицу. Размер зависит от частоты встречаемости в обучающих данных: частые слова — один токен, редкие — несколько.

Примеры токенизации

английский

Hello, world!

4 токена

русский

Привет, мир!

5 токенов

длинное слово

antidisestablishmentarianism

6 токенов

числа

123456789

4 токена (не одно!)

Практические следствия:

Для API: запрос на 1000 слов по-русски будет стоить как запрос на ~1500 слов по-английски. Если вы строите продукт с русскоязычными пользователями — закладывайте это в юнит-экономику.

Для промтов: длинные системные инструкции, вставленные документы, история диалога — всё это токены. Всё это влезает в контекстное окно и стоит денег.

Правило большого пальца: 1 токен ≈ 4 символа в английском, ≈ 2.5–3 символа в русском.

Контекстное окно: сколько влезает

Контекстное окно — это всё, что модель видит за один запрос. System prompt + история диалога + ваш вопрос + ответ модели. Всё вместе.

GPT-4o

128K токенов

Claude 3.7

200K токенов

Gemini 1.5 Pro

1M токенов

200K токенов Claude ≈ 450 страниц текста ≈ вся «Война и мир» (580K слов в английском переводе ≈ 780K токенов — не влезает, но роман Достоевского «Братья Карамазовы» — влезает).

Контекстное окно — не «память». Это важно понять. Модель не помнит прошлые разговоры — она просто читает всё, что вы ей передаёте, каждый раз заново. Увеличиваете историю диалога — растут токены — растёт цена.

Что занимает окно

Типичный запрос с документом — 200K токенов

System prompt

История чата

Загруженный документ / RAG

Ответ

System prompt (~15%)

История (~30%)

Документ/контекст (~43%)

Ответ модели (~12%)

Lost in the middle — проблема, о которой мало говорят

Исследование Stanford 2023 года показало неудобную вещь: языковые модели хуже используют информацию из середины длинного контекста.

Точность извлечения информации по позиции в контексте (Stanford, 2023)

НачалоСерединаКонец

Модели лучше «помнят» информацию с начала (primacy effect) и конца (recency effect) запроса. Середина длинного контекста теряется. Практический вывод: важные инструкции — в начало system prompt или в конец запроса, не в середину большого документа.

Температура: что это на самом деле

Большинство объяснений говорят: «температура = креативность». Это не совсем точно.

Когда модель генерирует следующий токен, она вычисляет вероятность для каждого возможного следующего слова. Получается распределение: «кот» — 34%, «пёс» — 22%, «стол» — 8%, и так далее для десятков тысяч токенов.

Температура масштабирует это распределение:

Как температура меняет распределение вероятностей

«кот» «пёс» «стол» «дом» «лес» …

Всегда выбирает самый вероятный токен. Детерминированный вывод — одинаковый каждый раз. Хорошо для кода, классификации, фактических ответов.

0.7

«кот» «пёс» «стол» «дом» «лес» …

Баланс: чаще выбирает вероятные токены, иногда — менее очевидные. Дефолт для большинства задач.

1.5

«кот» «пёс» «стол» «дом» «лес» …

Распределение «сглажено» — редкие токены получают шанс. Больше вариативности, но выше риск бессмыслицы. Для брейнсторминга, поэзии, нестандартных идей.

Это не «творческий режим». Это управление случайностью. При высокой температуре модель буквально чаще бросает кубик в сторону менее очевидных слов.

Температура на практике

0–0.2

Код, классификация, извлечение данных

Парсинг JSON, SQL-запросы, да/нет ответы, категоризация, факты из документа

0.5–0.7

Аналитические тексты, резюме, переводы

Анализ отчётов, саммари встреч, деловая переписка, объяснения

0.8–1.0

Маркетинговые тексты, идеи, описания

Рекламные заголовки, описания продуктов, посты для соцсетей, сторителлинг

1.2–1.5

Брейнсторминг, нестандартные идеи

Нейминг, поиск неочевидных концепций, поэзия, творческий эксперимент

«Модели работают лучше при низкой температуре на задачах с правильным ответом, и при более высокой — на задачах без единственно верного ответа. Но “выше = лучше для творчества” — это миф. Выше — это просто менее предсказуемо.»

Как это влияет на промтинг

Три практических вывода:

1. Важное — в начало или конец. Lost in the middle — реальная проблема. Если вы вставляете большой документ и хотите, чтобы модель ответила точно — задайте вопрос до документа (в начале) или повторите его после (в конце).

2. Системный промт — это платный input. Каждый раз при запросе весь system prompt заново уходит в API. 2000-токенный системный промт × 10 000 запросов в месяц = 20 миллионов токенов. Используйте prompt caching, если API его поддерживает.

3. Температуру трогайте осознанно. Дефолт большинства API — 1.0. Для задач, где нужен точный ответ (код, данные, классификация), опустите до 0–0.3. Для текстов оставьте 0.7. Для эксперимента поднимайте.

Почему использование ЛЛМ на русском языке обходится дороже, чем на английском?

Правильно. Токенизатор обучен преимущественно на английском тексте, поэтому английские слова чаще попадают в словарь как единые токены. Русские слова нарезаются на большее количество кусков. Одно и то же смысловое содержание на русском занимает в 1.5–2 раза больше токенов — и стоит пропорционально дороже при оплате API.

Что дальше в серии

Статья 01 — ЛЛМ, агенты, скиллы: архитектура
Статья 02 — Что такое нейросеть: от перцептрона до трансформера
Статья 03 — Токены, температура, контекстное окно (вы здесь)
Статья 04 — Почему ЛЛМ галлюцинирует и что с этим делать

Источники

OpenAI Cookbook. How to count tokens with tiktoken
Anthropic. Claude 3 Haiku: our fastest model yet, 2024
Liu et al., Stanford. Lost in the Middle: How Language Models Use Long Contexts, 2023
Elhage et al., Anthropic. A Mathematical Framework for Transformer Circuits, 2021

Источники

Часто задаваемые вопросы

Сколько токенов в одном слове?: В среднем для английского — около 0.75 слова на токен, то есть примерно 1.3 токена на слово. Правило большого пальца: 1 токен ≈ 4 символа в английском. Русский менее эффективен: то же самое слово занимает примерно в 1.5–2 раза больше токенов. Цифры и знаки препинания тоже считаются отдельными токенами.
Что такое контекстное окно и почему оно важно?: Контекстное окно — максимальное количество токенов, которое модель может обработать за один запрос (system prompt + история диалога + ваш вопрос + ответ модели). Claude 3.5/3.7 Sonnet: 200 000 токенов ≈ 450 страниц текста. GPT-4o: 128 000 токенов. Gemini 1.5 Pro: 1 000 000 токенов. Всё, что выходит за окно, модель просто не видит.
Что такое температура в ЛЛМ?: Температура — параметр от 0 до 2, который масштабирует распределение вероятностей над следующим токеном. При температуре 0 модель всегда выбирает самый вероятный токен (детерминированный вывод). При высокой температуре распределение «сглаживается» — модель чаще выбирает менее очевидные варианты. Это не «креативность» — это управление случайностью выбора.
Что такое 'lost in the middle' и как это влияет на промтинг?: Исследование Stanford (2023) показало: языковые модели хуже используют информацию, которая находится в середине длинного контекста. Лучше всего модель помнит начало (primacy effect) и конец (recency effect) запроса. Вывод для практики: важные инструкции и контекст — в начало или конец промта, не в середину.
Чем top-p отличается от температуры?: Температура масштабирует всё распределение вероятностей. Top-p (nucleus sampling) — ограничивает выборку токенами, чья суммарная вероятность не превышает p. При top-p=0.9 модель рассматривает только те токены, которые в сумме дают 90% вероятности, игнорируя редкие. Оба параметра управляют «случайностью», но по-разному. На практике чаще трогают температуру.
Почему один и тот же запрос стоит по-разному?: Цена API считается в токенах: отдельно за input (ваш запрос) и output (ответ модели). Claude 3.7 Sonnet: $3 за 1M input токенов и $15 за 1M output токенов. Русский текст содержит в 1.5–2 раза больше токенов, чем аналогичный английский — то есть реально дороже. Длинные системные промты, большой контекст — всё это платный input.

Пока без комментариев. Будьте первым.

Токены, температура, контекстное окно: что происходит внутри ЛЛМ

Что такое токен

Контекстное окно: сколько влезает

Что занимает окно

Lost in the middle — проблема, о которой мало говорят

Температура: что это на самом деле

Температура на практике

Как это влияет на промтинг

Что дальше в серии

Источники

Источники

Часто задаваемые вопросы

Реквизиты ИП

Банковские реквизиты

Экспресс-проверка репутации

Предварительный анализ

Что такое токен

Контекстное окно: сколько влезает

Что занимает окно

Lost in the middle — проблема, о которой мало говорят

Температура: что это на самом деле

Температура на практике

Как это влияет на промтинг

Что дальше в серии

Источники

Источники

Читайте также

Часто задаваемые вопросы