Разбор
Что такое нейросеть: от одного нейрона до трансформера
Мы построили самую сложную систему в истории человечества — и до сих пор не знаем, что у неё внутри. Разбираю нейросети: перцептрон, слои, обучение, трансформер и механизм внимания.
В 1957 году Фрэнк Розенблатт построил Perceptron Mark I — аппарат размером с комнату, который мог различить букву «А» от «Б» на перфокарте. Он написал в отчёте ВМС США, что это первый шаг к машине, способной «думать». Газеты написали про «электронный мозг». Потом наступила зима ИИ — и про перцептрон забыли на 30 лет.
Сейчас GPT-4 примерно в 10 миллионов раз больше. Но принцип внутри — тот же.
Один нейрон — что он делает
Нейрон в нейросети — это не клетка и не мозг. Это математическая функция. Очень простая.
+ порог
+ функция
Нейрон берёт несколько чисел на вход (x₁, x₂, x₃), умножает каждое на свой вес (w₁, w₂, w₃), складывает, прогоняет через нелинейную функцию активации — и выдаёт одно число на выход. Вот и всё.
Вес — это то, чему нейрон «научился». Именно веса меняются при обучении. 175 млрд параметров GPT-3 — это 175 млрд таких весов.
Слои: откуда берётся «глубина»
Один нейрон слишком прост — он провёл одну прямую линию через данные и всё. Для сложных задач нейроны объединяют в слои, а слои — в сети.
Каждый слой учится находить всё более абстрактные признаки. Первый слой при распознавании лиц замечает края и контуры. Второй — носы и глаза. Третий — лица целиком. Это происходит само, без ручного программирования признаков.
«Глубокое» обучение — это просто «много слоёв». GPT-3 имеет 96 слоёв трансформера. Каждый слой добавляет понимание поверх предыдущего.
Как нейросеть учится
Обучение — это процесс настройки весов. Работает через три шага, которые повторяются миллионы раз:
- Прямой проход: дать сети вход, получить ответ
- Измерить ошибку: насколько ответ отличается от правильного
- Обратное распространение (backprop): пройти обратно через все слои и чуть-чуть подправить каждый вес, чтобы ошибка уменьшилась
«Более высокие вычислительные мощности ведут к общему улучшению возможностей через скейлинг-законы. Это значит, что человеческий уровень производительности по большинству интеллектуальных задач может прийти в течение следующего десятилетия.» — Anthropic, Core Views on AI Safety, 2023
Один проход по всему обучающему датасету — это одна «эпоха». GPT-3 обучался на ~300 миллиардах токенов. Claude — на триллионах. Это месяцы на тысячах GPU.
От перцептрона до трансформера: 70 лет
Почему трансформер победил всех
До 2017 года тексты обрабатывали рекуррентные сети (RNN, LSTM). Они читали слова по одному, слева направо, как человек читает книгу. Проблема: к концу длинного предложения начало уже «забыто».
Трансформер убрал последовательность. Он смотрит на все слова одновременно — и для каждого слова вычисляет, насколько оно важно для каждого другого. Это называется механизм внимания (attention).
Слово «реке» получает высокое внимание — оно подсказывает, что «банк» здесь географический, а не финансовый. Модель выучила эти связи сама, из миллиардов примеров.
Каждый слой трансформера содержит несколько «голов» внимания (attention heads). Каждая голова учится смотреть на разный тип связей: одна следит за синтаксисом, другая — за семантикой, третья — за порядком слов. GPT-3 имеет 96 слоёв по 96 голов в каждом — итого 9 216 голов внимания.
Скейлинг: больше = умнее
Самое неожиданное открытие 2020-х: просто добавь больше данных и вычислений — и появляются новые способности. Без специального программирования. GPT-3 неожиданно оказался способен к few-shot обучению: увидел 3 примера в промте — понял паттерн. Никто этого не закладывал. Это называют «эмерджентными свойствами».
Есть вопрос по теме?
Разберу вашу ситуацию и предложу конкретный шаг
Чего мы не знаем
Вот парадокс: мы сами построили эти системы, мы написали код, подобрали архитектуру, запустили обучение. Но мы не знаем, что именно происходит внутри.
«Нейросети хранят больше признаков, чем у них есть измерений. Модель “упаковывает” несколько понятий в одно измерение, используя разреженность данных. Это называется суперпозицией — и именно поэтому понять нейросеть изнутри так сложно.» — Anthropic Research, Toy Models of Superposition, 2022
Исследователи Anthropic разработали интерпретируемость — инструменты, которые пытаются «заглянуть» внутрь модели и понять, что активирует тот или иной нейрон. Оказалось, что один нейрон может отвечать за несколько совершенно разных понятий одновременно — «Дональд Трамп» и «золото», «радиоактивность» и «ядерная энергетика». Модель нашла способ упаковать больше знаний, чем влезает в физическое пространство весов.
Это объясняет галлюцинации: когда разные паттерны «наложились» друг на друга, модель иногда достаёт не то понятие из суперпозиции.
Правильно. Нейросеть не хранит факты — она хранит вероятностные паттерны в виде числовых весов. Каждый обучающий шаг немного корректирует веса так, чтобы ошибка предсказания уменьшалась. После миллиардов таких шагов модель «знает» язык — не через правила, а через статистику.
Что дальше в серии
Это вторая статья из серии «Нейросети и ИИ-агенты: от нуля до профи». В следующих разберём:
- Статья 03 — Трансформер изнутри: токены, температура, контекстное окно — конкретные числа
- Статья 04 — Почему ЛЛМ галлюцинирует и что с этим делать на практике
- Статья 05 — Как обучают модели: RLHF и Constitutional AI
Первую статью серии — про разницу между чат-ботом и агентом — читайте здесь.
Есть вопрос по теме?
Разберу вашу ситуацию и предложу конкретный шаг
Источники
- Rosenblatt, F. (1957). The Perceptron: A Perceiving and Recognizing Automaton. Cornell Aeronautical Laboratory
- Rumelhart, Hinton, Williams (1986). Learning representations by back-propagating errors. Nature
- Vaswani et al. (2017). Attention Is All You Need. Google Brain / Google Research
- Brown et al. (2020). Language Models are Few-Shot Learners (GPT-3). OpenAI
- Elhage et al. (2021). A Mathematical Framework for Transformer Circuits. Anthropic
- Elhage et al. (2022). Toy Models of Superposition. Anthropic
- Anthropic Core Views on AI Safety, 2023
AI-агенты · Персональное кураторство
Хочешь разобраться с AI-агентами?
Получи персональную карту входа за 5 минут в Telegram-боте
Получить карту AI-агентов →AI-агенты · Персональная карта
4 часа потратил — не работает?
Покажу где ты пошёл не туда и как сделать правильно за 2 недели
Получить разбор бесплатно →Есть вопрос по теме?
Разберу вашу ситуацию и предложу конкретный шаг
Источники
Читайте также
Часто задаваемые вопросы
- Чем нейрон в нейросети отличается от нейрона в мозге?
- Биологический нейрон — клетка с тысячами дендритов и аксонов, работающая через химические сигналы. Искусственный нейрон — это просто математическая функция: берёт несколько чисел на вход, умножает каждое на свой вес, складывает, и если сумма больше порога — выдаёт сигнал. Метафора правильная, механизм совершенно другой.
- Сколько параметров в современных нейросетях?
- GPT-3 (2020): 175 млрд параметров. GPT-4 (оценочно): 1–1.8 трлн. Claude — Anthropic не раскрывает точных цифр, но масштаб сопоставим. Параметр — это одно число (вес), которое настраивается при обучении. 175 млрд параметров — это примерно 700 ГБ в памяти при хранении в float32.
- Что такое механизм внимания (attention) и почему он важен?
- Attention позволяет модели при обработке каждого токена смотреть на все остальные токены в контексте и решать, какие из них важны. До трансформеров (RNN, LSTM) модели читали текст последовательно и «забывали» начало длинного текста. Attention снял это ограничение: все токены видны одновременно, и модель сама учится, какие связи важны.
- Почему нейросеть галлюцинирует?
- Нейросеть не хранит факты — она хранит вероятностные паттерны. Когда модель генерирует следующий токен, она выбирает наиболее вероятное продолжение на основе обученных весов. Иногда «вероятное» не совпадает с «правильным». Плюс явление суперпозиции: модель хранит больше понятий, чем у неё есть измерений, что создаёт интерференцию между похожими концептами.
- Что такое суперпозиция в нейросетях?
- Исследование Anthropic показало: нейросети хранят больше признаков (features), чем у них есть нейронов. Модель «упаковывает» несколько понятий в одно измерение, используя разреженность — в каждый момент активно лишь небольшое количество признаков. Это объясняет, почему понять что происходит внутри нейросети так сложно: один нейрон может отвечать за несколько не связанных понятий.
- Чем трансформер отличается от предыдущих архитектур?
- До 2017 года доминировали RNN и LSTM — они читали текст слово за словом, как человек читает книгу. Проблема: длинные зависимости терялись. Трансформер (статья Google Brain 2017 «Attention Is All You Need») убрал рекуррентность и заменил её механизмом внимания. Все токены обрабатываются параллельно. Это позволило масштабировать обучение на GPU и получить скейлинг-законы.
Канал «Лёха Маркетолог»
Практика без воды: кейсы, инсайты, разборы. 1–2 поста в неделю.
Пока без комментариев. Будьте первым.