Как обучают ChatGPT — объяснение простыми словами?

Три этапа. 1) Pretraining: модель читает весь интернет (15 трлн слов) и учится угадывать следующее слово. 2) Fine-tuning: живые люди пишут образцовые ответы, модель учится у них. 3) RLHF: модель даёт несколько вариантов ответа, люди выбирают лучший, модель учится на их вкусе.

Сколько параметров у GPT-4?

По оценкам — около 1,8 триллиона параметров (OpenAI официально не раскрывает). Если крутить по одному параметру в секунду, без остановок, потребовалось бы около 57 000 лет.

Сколько стоит обучить ChatGPT?

Один цикл обучения GPT-4 — по оценкам аналитиков, $50–100 миллионов только на вычисления (чипы, электричество). С учётом команды, данных, инфраструктуры — от $500 млн до $1 млрд. Это самый дорогой технологический проект в истории.

Что такое RLHF и зачем он нужен?

Reinforcement Learning from Human Feedback — обучение с подкреплением на человеческой обратной связи. Модель предлагает несколько вариантов ответа, живые люди выбирают лучший. Без объяснений — просто клик. Модель учится на вкусе людей. RLHF делает ИИ приятным в общении и менее склонным к галлюцинациям.

Правда ли что людей платят $2 в час за обучение ИИ?

Да. В 2023 году журнал Time опубликовал расследование: OpenAI платил аутсорс-работникам в Кении около $2 в час за чтение токсичного контента (насилие, абьюз) и расстановку меток. Многие получили психологическую травму. Это реальная сторона создания «безопасного» ИИ.

Почему ИИ называют «базовой моделью» и чем она отличается от ChatGPT?

Базовая модель (foundation model) — результат pretraining. Знает чудовищно много, но не умеет общаться: на «Привет, как дела?» может ответить финансовым отчётом. ChatGPT — это базовая модель + fine-tuning + RLHF. Воспитанная версия, которая умеет разговаривать с людьми.

Разбор

Как обучают ChatGPT: три шага за миллиард долларов

Триллион параметров. Миллиард долларов. Три этапа обучения. И тысячи живых людей в Кении по $2/час. Эпизод 11 курса «ИИ-агенты от нуля»: как делают ChatGPT — без математики, на здравом смысле.

Лёха Маркетолог • 11.05.2026 • 3 мин чтения

Одно число. Один триллион. Столько «ручек настройки» внутри современной модели уровня GPT-4. Если бы ты крутил по одной в секунду, без сна и еды, тебе понадобилось бы тридцать тысяч лет.

Сан-Франциско, 2022 год. Тридцать инженеров, пицца, кто-то спит на диване. Эти люди настраивают триллион чисел так, чтобы из кремния получилась штука, с которой ты потом обсуждаешь понедельник.

$1 млрд— стоимость одного цикла обучения GPT-4. Ты заходишь в ChatGPT за $20 в месяц. Или бесплатно. Этим надо пользоваться.По оценкам аналитиков, 2023–2024

Три этапа: как это делается

Pretraining

Пожирание интернета

15 триллионов слов — весь интернет, книги, Wikipedia, форумы. Модель учится одному: угадать следующее слово. Миллиарды итераций на десятках тысяч чипов, месяцами. Результат — базовая модель: знает всё, но общаться не умеет. Спросишь «как дела?» — ответит финансовым отчётом.

Fine-tuning

Ручное воспитание

Тысячи живых людей пишут вопросы и образцовые ответы. Десятки тысяч примеров: как отвечать на «привет», как помогать с резюме, что нельзя делать. Модель учится у людей. Тут и тёмная сторона: кто-то должен читать самый токсичный контент интернета и ставить метки «так нельзя».

RLHF

Обратная связь от людей

Модель даёт несколько вариантов ответа — живой человек выбирает лучший. Просто один клик. Без объяснений. Модель учится на вкусе. RLHF делает ИИ приятным в общении, честным в признании ошибок, понятным в объяснениях. Это то, что отличает ChatGPT от всех остальных базовых моделей.

Как работает RLHF

Reinforcement Learning from Human Feedback

Задаётся вопрос

Модель даёт 4–6 вариантов ответа

Живой человек кликает: «этот лучше»

Модель подстраивается под этот вкус

Миллиарды таких сессий → становится умнее

Знаешь, на что это похоже? Когда я не объясняю клиенту правила, а просто говорю «вот этот промпт хороший, а вот этот плохой» — он учится в три раза быстрее. Мозг сам ловит закономерность. Без слов. Модель — точно так же.

Тёмная сторона, о которой не говорят на конференциях

Чтобы научить ИИ не писать гадости, нужно показать ему миллион примеров гадостей. Кто это делает?

В 2023 году Time опубликовал расследование: OpenAI платил аутсорс-работникам в Кении около $2 в час за чтение токсичного контента — насилие, абьюз, всё самое тёмное. Весь день. Со временем — психологические травмы. Большой скандал.

Когда говорят «ИИ нас заменит» — забывают: ИИ воспитан живыми людьми. Стоит на их плечах. Иногда — буквально стоял ногой им на горле.

Сколько это всё стоит

Чипы (NVIDIA)

≈$400 млн

Команда

≈$300 млн

Электричество

≈$150 млн

Данные и инфра

≈$150 млн

Один цикл обучения — $500 млн–$1 млрд. Дороже Манхэттенского проекта в пересчёте на сегодняшние деньги. И таких циклов — несколько в год.

Ты заходишь в ChatGPT за $20 в месяц. Или бесплатно. Кто-то построил машину за миллиард и пускает тебя поиграться. Этим надо пользоваться.

Чем RLHF принципиально отличается от fine-tuning?

← Предыдущая

ИИ-ассистент на работе — 10 задач

Эпизод 11 из 30ИИ-агенты от нуля

Почему ИИ иногда говорит глупости

Источники

Часто задаваемые вопросы

Как обучают ChatGPT — объяснение простыми словами?: Три этапа. 1) Pretraining: модель читает весь интернет (15 трлн слов) и учится угадывать следующее слово. 2) Fine-tuning: живые люди пишут образцовые ответы, модель учится у них. 3) RLHF: модель даёт несколько вариантов ответа, люди выбирают лучший, модель учится на их вкусе.
Сколько параметров у GPT-4?: По оценкам — около 1,8 триллиона параметров (OpenAI официально не раскрывает). Если крутить по одному параметру в секунду, без остановок, потребовалось бы около 57 000 лет.
Сколько стоит обучить ChatGPT?: Один цикл обучения GPT-4 — по оценкам аналитиков, $50–100 миллионов только на вычисления (чипы, электричество). С учётом команды, данных, инфраструктуры — от $500 млн до $1 млрд. Это самый дорогой технологический проект в истории.
Что такое RLHF и зачем он нужен?: Reinforcement Learning from Human Feedback — обучение с подкреплением на человеческой обратной связи. Модель предлагает несколько вариантов ответа, живые люди выбирают лучший. Без объяснений — просто клик. Модель учится на вкусе людей. RLHF делает ИИ приятным в общении и менее склонным к галлюцинациям.
Правда ли что людей платят $2 в час за обучение ИИ?: Да. В 2023 году журнал Time опубликовал расследование: OpenAI платил аутсорс-работникам в Кении около $2 в час за чтение токсичного контента (насилие, абьюз) и расстановку меток. Многие получили психологическую травму. Это реальная сторона создания «безопасного» ИИ.
Почему ИИ называют «базовой моделью» и чем она отличается от ChatGPT?: Базовая модель (foundation model) — результат pretraining. Знает чудовищно много, но не умеет общаться: на «Привет, как дела?» может ответить финансовым отчётом. ChatGPT — это базовая модель + fine-tuning + RLHF. Воспитанная версия, которая умеет разговаривать с людьми.

Пока без комментариев. Будьте первым.

Как обучают ChatGPT: три шага за миллиард долларов

Три этапа: как это делается

Как работает RLHF

Тёмная сторона, о которой не говорят на конференциях

Сколько это всё стоит

Источники

Источники

Часто задаваемые вопросы

Реквизиты ИП

Банковские реквизиты

Экспресс-проверка репутации

Предварительный анализ

Три этапа: как это делается

Как работает RLHF

Тёмная сторона, о которой не говорят на конференциях

Сколько это всё стоит

Источники

Источники

Читайте также

Часто задаваемые вопросы