Разбор
Как обучают ChatGPT: три шага за миллиард долларов
Триллион параметров. Миллиард долларов. Три этапа обучения. И тысячи живых людей в Кении по $2/час. Эпизод 11 курса «ИИ-агенты от нуля»: как делают ChatGPT — без математики, на здравом смысле.
Одно число. Один триллион. Столько «ручек настройки» внутри современной модели уровня GPT-4. Если бы ты крутил по одной в секунду, без сна и еды, тебе понадобилось бы тридцать тысяч лет.
Сан-Франциско, 2022 год. Тридцать инженеров, пицца, кто-то спит на диване. Эти люди настраивают триллион чисел так, чтобы из кремния получилась штука, с которой ты потом обсуждаешь понедельник.
Три этапа: как это делается
Как работает RLHF
Знаешь, на что это похоже? Когда я не объясняю клиенту правила, а просто говорю «вот этот промпт хороший, а вот этот плохой» — он учится в три раза быстрее. Мозг сам ловит закономерность. Без слов. Модель — точно так же.
Есть вопрос по теме?
Понять как работает ИИ — первый шаг. Второй: настроить его под свои задачи. Разберём вместе.
Тёмная сторона, о которой не говорят на конференциях
Чтобы научить ИИ не писать гадости, нужно показать ему миллион примеров гадостей. Кто это делает?
В 2023 году Time опубликовал расследование: OpenAI платил аутсорс-работникам в Кении около $2 в час за чтение токсичного контента — насилие, абьюз, всё самое тёмное. Весь день. Со временем — психологические травмы. Большой скандал.
Когда говорят «ИИ нас заменит» — забывают: ИИ воспитан живыми людьми. Стоит на их плечах. Иногда — буквально стоял ногой им на горле.
Сколько это всё стоит
Один цикл обучения — $500 млн–$1 млрд. Дороже Манхэттенского проекта в пересчёте на сегодняшние деньги. И таких циклов — несколько в год.
Ты заходишь в ChatGPT за $20 в месяц. Или бесплатно. Кто-то построил машину за миллиард и пускает тебя поиграться. Этим надо пользоваться.
Есть вопрос по теме?
Персональная сессия: от «понимаю как работает» к «использую каждый день» — за один час
Источники
AI-агенты · Персональное кураторство
Хочешь разобраться с AI-агентами?
Получи персональную карту входа за 5 минут в Telegram-боте
Получить карту AI-агентов →AI-агенты · Персональная карта
4 часа потратил — не работает?
Покажу где ты пошёл не туда и как сделать правильно за 2 недели
Получить разбор бесплатно →Есть вопрос по теме?
Разберу вашу ситуацию и предложу конкретный шаг
Источники
Читайте также
Часто задаваемые вопросы
- Как обучают ChatGPT — объяснение простыми словами?
- Три этапа. 1) Pretraining: модель читает весь интернет (15 трлн слов) и учится угадывать следующее слово. 2) Fine-tuning: живые люди пишут образцовые ответы, модель учится у них. 3) RLHF: модель даёт несколько вариантов ответа, люди выбирают лучший, модель учится на их вкусе.
- Сколько параметров у GPT-4?
- По оценкам — около 1,8 триллиона параметров (OpenAI официально не раскрывает). Если крутить по одному параметру в секунду, без остановок, потребовалось бы около 57 000 лет.
- Сколько стоит обучить ChatGPT?
- Один цикл обучения GPT-4 — по оценкам аналитиков, $50–100 миллионов только на вычисления (чипы, электричество). С учётом команды, данных, инфраструктуры — от $500 млн до $1 млрд. Это самый дорогой технологический проект в истории.
- Что такое RLHF и зачем он нужен?
- Reinforcement Learning from Human Feedback — обучение с подкреплением на человеческой обратной связи. Модель предлагает несколько вариантов ответа, живые люди выбирают лучший. Без объяснений — просто клик. Модель учится на вкусе людей. RLHF делает ИИ приятным в общении и менее склонным к галлюцинациям.
- Правда ли что людей платят $2 в час за обучение ИИ?
- Да. В 2023 году журнал Time опубликовал расследование: OpenAI платил аутсорс-работникам в Кении около $2 в час за чтение токсичного контента (насилие, абьюз) и расстановку меток. Многие получили психологическую травму. Это реальная сторона создания «безопасного» ИИ.
- Почему ИИ называют «базовой моделью» и чем она отличается от ChatGPT?
- Базовая модель (foundation model) — результат pretraining. Знает чудовищно много, но не умеет общаться: на «Привет, как дела?» может ответить финансовым отчётом. ChatGPT — это базовая модель + fine-tuning + RLHF. Воспитанная версия, которая умеет разговаривать с людьми.
Канал «Лёха Маркетолог»
Практика без воды: кейсы, инсайты, разборы. 1–2 поста в неделю.
Пока без комментариев. Будьте первым.