Разбор

Что такое нейросеть: от одного нейрона до трансформера

Мы построили самую сложную систему в истории человечества — и до сих пор не знаем, что у неё внутри. Разбираю нейросети: перцептрон, слои, обучение, трансформер и механизм внимания.

• 6 мин чтения

В 1957 году Фрэнк Розенблатт построил Perceptron Mark I — аппарат размером с комнату, который мог различить букву «А» от «Б» на перфокарте. Он написал в отчёте ВМС США, что это первый шаг к машине, способной «думать». Газеты написали про «электронный мозг». Потом наступила зима ИИ — и про перцептрон забыли на 30 лет.

Сейчас GPT-4 примерно в 10 миллионов раз больше. Но принцип внутри — тот же.

175 млрд
параметров в GPT-3
Один параметр — одно число. 175 млрд чисел, настроенных так, чтобы предсказывать следующее слово. Это 700 ГБ данных — вся «память» модели

Один нейрон — что он делает

Нейрон в нейросети — это не клетка и не мозг. Это математическая функция. Очень простая.

x₁ = 0.8  × w₁ = 0.5
x₂ = 0.3  × w₂ = 1.2
x₃ = 0.9  × w₃ = −0.7
сумма
+ порог
+ функция
0.74 ✓

Нейрон берёт несколько чисел на вход (x₁, x₂, x₃), умножает каждое на свой вес (w₁, w₂, w₃), складывает, прогоняет через нелинейную функцию активации — и выдаёт одно число на выход. Вот и всё.

Вес — это то, чему нейрон «научился». Именно веса меняются при обучении. 175 млрд параметров GPT-3 — это 175 млрд таких весов.

Слои: откуда берётся «глубина»

Один нейрон слишком прост — он провёл одну прямую линию через данные и всё. Для сложных задач нейроны объединяют в слои, а слои — в сети.

Входной слой
Скрытый слой 1
Скрытый слой 2
Выходной слой
Простая нейросеть: входные данные → скрытые слои (обрабатывают) → выход (результат)

Каждый слой учится находить всё более абстрактные признаки. Первый слой при распознавании лиц замечает края и контуры. Второй — носы и глаза. Третий — лица целиком. Это происходит само, без ручного программирования признаков.

«Глубокое» обучение — это просто «много слоёв». GPT-3 имеет 96 слоёв трансформера. Каждый слой добавляет понимание поверх предыдущего.

Как нейросеть учится

Обучение — это процесс настройки весов. Работает через три шага, которые повторяются миллионы раз:

  1. Прямой проход: дать сети вход, получить ответ
  2. Измерить ошибку: насколько ответ отличается от правильного
  3. Обратное распространение (backprop): пройти обратно через все слои и чуть-чуть подправить каждый вес, чтобы ошибка уменьшилась

«Более высокие вычислительные мощности ведут к общему улучшению возможностей через скейлинг-законы. Это значит, что человеческий уровень производительности по большинству интеллектуальных задач может прийти в течение следующего десятилетия.» — Anthropic, Core Views on AI Safety, 2023

Один проход по всему обучающему датасету — это одна «эпоха». GPT-3 обучался на ~300 миллиардах токенов. Claude — на триллионах. Это месяцы на тысячах GPU.

От перцептрона до трансформера: 70 лет

1957
Perceptron — первый нейрон
Розенблатт строит аппарат размером с комнату. Умеет классифицировать два класса. Пресса пишет про «электронный мозг».
1986
Backpropagation — обучение стало возможным
Хинтон, Румелхарт, Уильямс публикуют алгоритм обратного распространения ошибки. Наконец можно обучать многослойные сети.
2012
AlexNet — глубокое обучение побеждает
CNN на GPU выигрывает ImageNet с большим отрывом. Начинается современная эра глубокого обучения.
2017
«Attention Is All You Need» — рождение трансформера
Google Brain публикует статью. Рекуррентных сетей больше нет. Механизм внимания меняет всё.
2020
GPT-3 — 175 млрд параметров
OpenAI показывает, что масштаб — это всё. Модель пишет код, стихи, отвечает на вопросы без дообучения.
2025
Агенты — нейросеть с инструментами
Claude Code, Codex, ChatGPT Agents. ЛЛМ перестаёт быть чат-ботом и становится исполнителем задач.

Почему трансформер победил всех

До 2017 года тексты обрабатывали рекуррентные сети (RNN, LSTM). Они читали слова по одному, слева направо, как человек читает книгу. Проблема: к концу длинного предложения начало уже «забыто».

Трансформер убрал последовательность. Он смотрит на все слова одновременно — и для каждого слова вычисляет, насколько оно важно для каждого другого. Это называется механизм внимания (attention).

Пример: модель читает фразу «Банк на реке был крутой» и обрабатывает слово «банк»
банк
на
реке
был
крутой
текущий токен
высокое внимание
среднее внимание
низкое внимание

Слово «реке» получает высокое внимание — оно подсказывает, что «банк» здесь географический, а не финансовый. Модель выучила эти связи сама, из миллиардов примеров.

Каждый слой трансформера содержит несколько «голов» внимания (attention heads). Каждая голова учится смотреть на разный тип связей: одна следит за синтаксисом, другая — за семантикой, третья — за порядком слов. GPT-3 имеет 96 слоёв по 96 голов в каждом — итого 9 216 голов внимания.

Скейлинг: больше = умнее

Perceptron
~1 000
GPT-1 (2018)
117 млн
GPT-2 (2019)
1.5 млрд
GPT-3 (2020)
175 млрд
GPT-4 (оценка)
~1 трлн

Самое неожиданное открытие 2020-х: просто добавь больше данных и вычислений — и появляются новые способности. Без специального программирования. GPT-3 неожиданно оказался способен к few-shot обучению: увидел 3 примера в промте — понял паттерн. Никто этого не закладывал. Это называют «эмерджентными свойствами».

Чего мы не знаем

Вот парадокс: мы сами построили эти системы, мы написали код, подобрали архитектуру, запустили обучение. Но мы не знаем, что именно происходит внутри.

«Нейросети хранят больше признаков, чем у них есть измерений. Модель “упаковывает” несколько понятий в одно измерение, используя разреженность данных. Это называется суперпозицией — и именно поэтому понять нейросеть изнутри так сложно.» — Anthropic Research, Toy Models of Superposition, 2022

Исследователи Anthropic разработали интерпретируемость — инструменты, которые пытаются «заглянуть» внутрь модели и понять, что активирует тот или иной нейрон. Оказалось, что один нейрон может отвечать за несколько совершенно разных понятий одновременно — «Дональд Трамп» и «золото», «радиоактивность» и «ядерная энергетика». Модель нашла способ упаковать больше знаний, чем влезает в физическое пространство весов.

Это объясняет галлюцинации: когда разные паттерны «наложились» друг на друга, модель иногда достаёт не то понятие из суперпозиции.

Что происходит при обучении нейросети на самом деле?

Правильно. Нейросеть не хранит факты — она хранит вероятностные паттерны в виде числовых весов. Каждый обучающий шаг немного корректирует веса так, чтобы ошибка предсказания уменьшалась. После миллиардов таких шагов модель «знает» язык — не через правила, а через статистику.

Что дальше в серии

Это вторая статья из серии «Нейросети и ИИ-агенты: от нуля до профи». В следующих разберём:

  • Статья 03 — Трансформер изнутри: токены, температура, контекстное окно — конкретные числа
  • Статья 04 — Почему ЛЛМ галлюцинирует и что с этим делать на практике
  • Статья 05 — Как обучают модели: RLHF и Constitutional AI

Первую статью серии — про разницу между чат-ботом и агентом — читайте здесь.

Источники

Источники

Часто задаваемые вопросы

Чем нейрон в нейросети отличается от нейрона в мозге?
Биологический нейрон — клетка с тысячами дендритов и аксонов, работающая через химические сигналы. Искусственный нейрон — это просто математическая функция: берёт несколько чисел на вход, умножает каждое на свой вес, складывает, и если сумма больше порога — выдаёт сигнал. Метафора правильная, механизм совершенно другой.
Сколько параметров в современных нейросетях?
GPT-3 (2020): 175 млрд параметров. GPT-4 (оценочно): 1–1.8 трлн. Claude — Anthropic не раскрывает точных цифр, но масштаб сопоставим. Параметр — это одно число (вес), которое настраивается при обучении. 175 млрд параметров — это примерно 700 ГБ в памяти при хранении в float32.
Что такое механизм внимания (attention) и почему он важен?
Attention позволяет модели при обработке каждого токена смотреть на все остальные токены в контексте и решать, какие из них важны. До трансформеров (RNN, LSTM) модели читали текст последовательно и «забывали» начало длинного текста. Attention снял это ограничение: все токены видны одновременно, и модель сама учится, какие связи важны.
Почему нейросеть галлюцинирует?
Нейросеть не хранит факты — она хранит вероятностные паттерны. Когда модель генерирует следующий токен, она выбирает наиболее вероятное продолжение на основе обученных весов. Иногда «вероятное» не совпадает с «правильным». Плюс явление суперпозиции: модель хранит больше понятий, чем у неё есть измерений, что создаёт интерференцию между похожими концептами.
Что такое суперпозиция в нейросетях?
Исследование Anthropic показало: нейросети хранят больше признаков (features), чем у них есть нейронов. Модель «упаковывает» несколько понятий в одно измерение, используя разреженность — в каждый момент активно лишь небольшое количество признаков. Это объясняет, почему понять что происходит внутри нейросети так сложно: один нейрон может отвечать за несколько не связанных понятий.
Чем трансформер отличается от предыдущих архитектур?
До 2017 года доминировали RNN и LSTM — они читали текст слово за словом, как человек читает книгу. Проблема: длинные зависимости терялись. Трансформер (статья Google Brain 2017 «Attention Is All You Need») убрал рекуррентность и заменил её механизмом внимания. Все токены обрабатываются параллельно. Это позволило масштабировать обучение на GPU и получить скейлинг-законы.
Обсуждение

    Пока без комментариев. Будьте первым.

    Войдите, чтобы отправить комментарий

    Вы сможете комментировать статьи, сохранять материалы

    или войдите по email

    Бесплатная диагностика · 30 минут · без обязательств

    Маркетинг работает, но продажи не растут?

    Отвечу на 3–5 вопросов о вашем бизнесе — и мы вместе разберём, где именно теряются клиенты и что с этим делать.

    Без продаж. Без навязчивых звонков.