Разбор

Как обучают ChatGPT: три шага за миллиард долларов

Триллион параметров. Миллиард долларов. Три этапа обучения. И тысячи живых людей в Кении по $2/час. Эпизод 11 курса «ИИ-агенты от нуля»: как делают ChatGPT — без математики, на здравом смысле.

• 3 мин чтения

Одно число. Один триллион. Столько «ручек настройки» внутри современной модели уровня GPT-4. Если бы ты крутил по одной в секунду, без сна и еды, тебе понадобилось бы тридцать тысяч лет.

Сан-Франциско, 2022 год. Тридцать инженеров, пицца, кто-то спит на диване. Эти люди настраивают триллион чисел так, чтобы из кремния получилась штука, с которой ты потом обсуждаешь понедельник.

$1 млрд— стоимость одного цикла обучения GPT-4. Ты заходишь в ChatGPT за $20 в месяц. Или бесплатно. Этим надо пользоваться.По оценкам аналитиков, 2023–2024

Три этапа: как это делается

1
Pretraining
Пожирание интернета
15 триллионов слов — весь интернет, книги, Wikipedia, форумы. Модель учится одному: угадать следующее слово. Миллиарды итераций на десятках тысяч чипов, месяцами. Результат — базовая модель: знает всё, но общаться не умеет. Спросишь «как дела?» — ответит финансовым отчётом.
2
Fine-tuning
Ручное воспитание
Тысячи живых людей пишут вопросы и образцовые ответы. Десятки тысяч примеров: как отвечать на «привет», как помогать с резюме, что нельзя делать. Модель учится у людей. Тут и тёмная сторона: кто-то должен читать самый токсичный контент интернета и ставить метки «так нельзя».
3
RLHF
Обратная связь от людей
Модель даёт несколько вариантов ответа — живой человек выбирает лучший. Просто один клик. Без объяснений. Модель учится на вкусе. RLHF делает ИИ приятным в общении, честным в признании ошибок, понятным в объяснениях. Это то, что отличает ChatGPT от всех остальных базовых моделей.

Как работает RLHF

Reinforcement Learning from Human Feedback
1
Задаётся вопрос
2
Модель даёт 4–6 вариантов ответа
3
Живой человек кликает: «этот лучше»
4
Модель подстраивается под этот вкус
5
Миллиарды таких сессий → становится умнее

Знаешь, на что это похоже? Когда я не объясняю клиенту правила, а просто говорю «вот этот промпт хороший, а вот этот плохой» — он учится в три раза быстрее. Мозг сам ловит закономерность. Без слов. Модель — точно так же.

Тёмная сторона, о которой не говорят на конференциях

Чтобы научить ИИ не писать гадости, нужно показать ему миллион примеров гадостей. Кто это делает?

В 2023 году Time опубликовал расследование: OpenAI платил аутсорс-работникам в Кении около $2 в час за чтение токсичного контента — насилие, абьюз, всё самое тёмное. Весь день. Со временем — психологические травмы. Большой скандал.

Когда говорят «ИИ нас заменит» — забывают: ИИ воспитан живыми людьми. Стоит на их плечах. Иногда — буквально стоял ногой им на горле.

Сколько это всё стоит

Чипы (NVIDIA)
≈$400 млн
Команда
≈$300 млн
Электричество
≈$150 млн
Данные и инфра
≈$150 млн

Один цикл обучения — $500 млн–$1 млрд. Дороже Манхэттенского проекта в пересчёте на сегодняшние деньги. И таких циклов — несколько в год.

Ты заходишь в ChatGPT за $20 в месяц. Или бесплатно. Кто-то построил машину за миллиард и пускает тебя поиграться. Этим надо пользоваться.

Чем RLHF принципиально отличается от fine-tuning?
Эпизод 11 из 30ИИ-агенты от нуля

Источники

Источники

Часто задаваемые вопросы

Как обучают ChatGPT — объяснение простыми словами?
Три этапа. 1) Pretraining: модель читает весь интернет (15 трлн слов) и учится угадывать следующее слово. 2) Fine-tuning: живые люди пишут образцовые ответы, модель учится у них. 3) RLHF: модель даёт несколько вариантов ответа, люди выбирают лучший, модель учится на их вкусе.
Сколько параметров у GPT-4?
По оценкам — около 1,8 триллиона параметров (OpenAI официально не раскрывает). Если крутить по одному параметру в секунду, без остановок, потребовалось бы около 57 000 лет.
Сколько стоит обучить ChatGPT?
Один цикл обучения GPT-4 — по оценкам аналитиков, $50–100 миллионов только на вычисления (чипы, электричество). С учётом команды, данных, инфраструктуры — от $500 млн до $1 млрд. Это самый дорогой технологический проект в истории.
Что такое RLHF и зачем он нужен?
Reinforcement Learning from Human Feedback — обучение с подкреплением на человеческой обратной связи. Модель предлагает несколько вариантов ответа, живые люди выбирают лучший. Без объяснений — просто клик. Модель учится на вкусе людей. RLHF делает ИИ приятным в общении и менее склонным к галлюцинациям.
Правда ли что людей платят $2 в час за обучение ИИ?
Да. В 2023 году журнал Time опубликовал расследование: OpenAI платил аутсорс-работникам в Кении около $2 в час за чтение токсичного контента (насилие, абьюз) и расстановку меток. Многие получили психологическую травму. Это реальная сторона создания «безопасного» ИИ.
Почему ИИ называют «базовой моделью» и чем она отличается от ChatGPT?
Базовая модель (foundation model) — результат pretraining. Знает чудовищно много, но не умеет общаться: на «Привет, как дела?» может ответить финансовым отчётом. ChatGPT — это базовая модель + fine-tuning + RLHF. Воспитанная версия, которая умеет разговаривать с людьми.
Обсуждение

    Пока без комментариев. Будьте первым.

    Войдите, чтобы отправить комментарий

    Вы сможете комментировать статьи, сохранять материалы

    или войдите по email

    Бесплатная диагностика · 30 минут · без обязательств

    Маркетинг работает, но продажи не растут?

    Отвечу на 3–5 вопросов о вашем бизнесе — и мы вместе разберём, где именно теряются клиенты и что с этим делать.

    Без продаж. Без навязчивых звонков.