Чем нейрон в нейросети отличается от нейрона в мозге?

Биологический нейрон — клетка с тысячами дендритов и аксонов, работающая через химические сигналы. Искусственный нейрон — это просто математическая функция: берёт несколько чисел на вход, умножает каждое на свой вес, складывает, и если сумма больше порога — выдаёт сигнал. Метафора правильная, механизм совершенно другой.

Сколько параметров в современных нейросетях?

GPT-3 (2020): 175 млрд параметров. GPT-4 (оценочно): 1–1.8 трлн. Claude — Anthropic не раскрывает точных цифр, но масштаб сопоставим. Параметр — это одно число (вес), которое настраивается при обучении. 175 млрд параметров — это примерно 700 ГБ в памяти при хранении в float32.

Что такое механизм внимания (attention) и почему он важен?

Attention позволяет модели при обработке каждого токена смотреть на все остальные токены в контексте и решать, какие из них важны. До трансформеров (RNN, LSTM) модели читали текст последовательно и «забывали» начало длинного текста. Attention снял это ограничение: все токены видны одновременно, и модель сама учится, какие связи важны.

Почему нейросеть галлюцинирует?

Нейросеть не хранит факты — она хранит вероятностные паттерны. Когда модель генерирует следующий токен, она выбирает наиболее вероятное продолжение на основе обученных весов. Иногда «вероятное» не совпадает с «правильным». Плюс явление суперпозиции: модель хранит больше понятий, чем у неё есть измерений, что создаёт интерференцию между похожими концептами.

Что такое суперпозиция в нейросетях?

Исследование Anthropic показало: нейросети хранят больше признаков (features), чем у них есть нейронов. Модель «упаковывает» несколько понятий в одно измерение, используя разреженность — в каждый момент активно лишь небольшое количество признаков. Это объясняет, почему понять что происходит внутри нейросети так сложно: один нейрон может отвечать за несколько не связанных понятий.

Чем трансформер отличается от предыдущих архитектур?

До 2017 года доминировали RNN и LSTM — они читали текст слово за словом, как человек читает книгу. Проблема: длинные зависимости терялись. Трансформер (статья Google Brain 2017 «Attention Is All You Need») убрал рекуррентность и заменил её механизмом внимания. Все токены обрабатываются параллельно. Это позволило масштабировать обучение на GPU и получить скейлинг-законы.

Разбор

Что такое нейросеть: от одного нейрона до трансформера

Мы построили самую сложную систему в истории человечества — и до сих пор не знаем, что у неё внутри. Разбираю нейросети: перцептрон, слои, обучение, трансформер и механизм внимания.

Лёха Маркетолог • 07.05.2026 • 6 мин чтения

В 1957 году Фрэнк Розенблатт построил Perceptron Mark I — аппарат размером с комнату, который мог различить букву «А» от «Б» на перфокарте. Он написал в отчёте ВМС США, что это первый шаг к машине, способной «думать». Газеты написали про «электронный мозг». Потом наступила зима ИИ — и про перцептрон забыли на 30 лет.

Сейчас GPT-4 примерно в 10 миллионов раз больше. Но принцип внутри — тот же.

175 млрд

параметров в GPT-3

Один параметр — одно число. 175 млрд чисел, настроенных так, чтобы предсказывать следующее слово. Это 700 ГБ данных — вся «память» модели

Один нейрон — что он делает

Нейрон в нейросети — это не клетка и не мозг. Это математическая функция. Очень простая.

x₁ = 0.8 × w₁ = 0.5

x₂ = 0.3 × w₂ = 1.2

x₃ = 0.9 × w₃ = −0.7

→

сумма
+ порог
+ функция

→

0.74 ✓

Нейрон берёт несколько чисел на вход (x₁, x₂, x₃), умножает каждое на свой вес (w₁, w₂, w₃), складывает, прогоняет через нелинейную функцию активации — и выдаёт одно число на выход. Вот и всё.

Вес — это то, чему нейрон «научился». Именно веса меняются при обучении. 175 млрд параметров GPT-3 — это 175 млрд таких весов.

Слои: откуда берётся «глубина»

Один нейрон слишком прост — он провёл одну прямую линию через данные и всё. Для сложных задач нейроны объединяют в слои, а слои — в сети.

Входной слой

→

Скрытый слой 1

→

Скрытый слой 2

→

Выходной слой

Простая нейросеть: входные данные → скрытые слои (обрабатывают) → выход (результат)

Каждый слой учится находить всё более абстрактные признаки. Первый слой при распознавании лиц замечает края и контуры. Второй — носы и глаза. Третий — лица целиком. Это происходит само, без ручного программирования признаков.

«Глубокое» обучение — это просто «много слоёв». GPT-3 имеет 96 слоёв трансформера. Каждый слой добавляет понимание поверх предыдущего.

Как нейросеть учится

Обучение — это процесс настройки весов. Работает через три шага, которые повторяются миллионы раз:

Прямой проход: дать сети вход, получить ответ
Измерить ошибку: насколько ответ отличается от правильного
Обратное распространение (backprop): пройти обратно через все слои и чуть-чуть подправить каждый вес, чтобы ошибка уменьшилась

«Более высокие вычислительные мощности ведут к общему улучшению возможностей через скейлинг-законы. Это значит, что человеческий уровень производительности по большинству интеллектуальных задач может прийти в течение следующего десятилетия.» — Anthropic, Core Views on AI Safety, 2023

Один проход по всему обучающему датасету — это одна «эпоха». GPT-3 обучался на ~300 миллиардах токенов. Claude — на триллионах. Это месяцы на тысячах GPU.

От перцептрона до трансформера: 70 лет

1957

Perceptron — первый нейрон

Розенблатт строит аппарат размером с комнату. Умеет классифицировать два класса. Пресса пишет про «электронный мозг».

1986

Backpropagation — обучение стало возможным

Хинтон, Румелхарт, Уильямс публикуют алгоритм обратного распространения ошибки. Наконец можно обучать многослойные сети.

2012

AlexNet — глубокое обучение побеждает

CNN на GPU выигрывает ImageNet с большим отрывом. Начинается современная эра глубокого обучения.

2017

«Attention Is All You Need» — рождение трансформера

Google Brain публикует статью. Рекуррентных сетей больше нет. Механизм внимания меняет всё.

2020

GPT-3 — 175 млрд параметров

OpenAI показывает, что масштаб — это всё. Модель пишет код, стихи, отвечает на вопросы без дообучения.

2025

Агенты — нейросеть с инструментами

Claude Code, Codex, ChatGPT Agents. ЛЛМ перестаёт быть чат-ботом и становится исполнителем задач.

Почему трансформер победил всех

До 2017 года тексты обрабатывали рекуррентные сети (RNN, LSTM). Они читали слова по одному, слева направо, как человек читает книгу. Проблема: к концу длинного предложения начало уже «забыто».

Трансформер убрал последовательность. Он смотрит на все слова одновременно — и для каждого слова вычисляет, насколько оно важно для каждого другого. Это называется механизм внимания (attention).

Пример: модель читает фразу «Банк на реке был крутой» и обрабатывает слово «банк»

банк

на

реке

был

крутой

текущий токен

высокое внимание

среднее внимание

низкое внимание

Слово «реке» получает высокое внимание — оно подсказывает, что «банк» здесь географический, а не финансовый. Модель выучила эти связи сама, из миллиардов примеров.

Каждый слой трансформера содержит несколько «голов» внимания (attention heads). Каждая голова учится смотреть на разный тип связей: одна следит за синтаксисом, другая — за семантикой, третья — за порядком слов. GPT-3 имеет 96 слоёв по 96 голов в каждом — итого 9 216 голов внимания.

Скейлинг: больше = умнее

Perceptron

~1 000

GPT-1 (2018)

117 млн

GPT-2 (2019)

1.5 млрд

GPT-3 (2020)

175 млрд

GPT-4 (оценка)

~1 трлн

Самое неожиданное открытие 2020-х: просто добавь больше данных и вычислений — и появляются новые способности. Без специального программирования. GPT-3 неожиданно оказался способен к few-shot обучению: увидел 3 примера в промте — понял паттерн. Никто этого не закладывал. Это называют «эмерджентными свойствами».

Чего мы не знаем

Вот парадокс: мы сами построили эти системы, мы написали код, подобрали архитектуру, запустили обучение. Но мы не знаем, что именно происходит внутри.

«Нейросети хранят больше признаков, чем у них есть измерений. Модель “упаковывает” несколько понятий в одно измерение, используя разреженность данных. Это называется суперпозицией — и именно поэтому понять нейросеть изнутри так сложно.» — Anthropic Research, Toy Models of Superposition, 2022

Исследователи Anthropic разработали интерпретируемость — инструменты, которые пытаются «заглянуть» внутрь модели и понять, что активирует тот или иной нейрон. Оказалось, что один нейрон может отвечать за несколько совершенно разных понятий одновременно — «Дональд Трамп» и «золото», «радиоактивность» и «ядерная энергетика». Модель нашла способ упаковать больше знаний, чем влезает в физическое пространство весов.

Это объясняет галлюцинации: когда разные паттерны «наложились» друг на друга, модель иногда достаёт не то понятие из суперпозиции.

Что происходит при обучении нейросети на самом деле?

Правильно. Нейросеть не хранит факты — она хранит вероятностные паттерны в виде числовых весов. Каждый обучающий шаг немного корректирует веса так, чтобы ошибка предсказания уменьшалась. После миллиардов таких шагов модель «знает» язык — не через правила, а через статистику.

Что дальше в серии

Это вторая статья из серии «Нейросети и ИИ-агенты: от нуля до профи». В следующих разберём:

Статья 03 — Трансформер изнутри: токены, температура, контекстное окно — конкретные числа
Статья 04 — Почему ЛЛМ галлюцинирует и что с этим делать на практике
Статья 05 — Как обучают модели: RLHF и Constitutional AI

Первую статью серии — про разницу между чат-ботом и агентом — читайте здесь.

Источники

Rosenblatt, F. (1957). The Perceptron: A Perceiving and Recognizing Automaton. Cornell Aeronautical Laboratory
Rumelhart, Hinton, Williams (1986). Learning representations by back-propagating errors. Nature
Vaswani et al. (2017). Attention Is All You Need. Google Brain / Google Research
Brown et al. (2020). Language Models are Few-Shot Learners (GPT-3). OpenAI
Elhage et al. (2021). A Mathematical Framework for Transformer Circuits. Anthropic
Elhage et al. (2022). Toy Models of Superposition. Anthropic
Anthropic Core Views on AI Safety, 2023

Источники

Часто задаваемые вопросы

Чем нейрон в нейросети отличается от нейрона в мозге?: Биологический нейрон — клетка с тысячами дендритов и аксонов, работающая через химические сигналы. Искусственный нейрон — это просто математическая функция: берёт несколько чисел на вход, умножает каждое на свой вес, складывает, и если сумма больше порога — выдаёт сигнал. Метафора правильная, механизм совершенно другой.
Сколько параметров в современных нейросетях?: GPT-3 (2020): 175 млрд параметров. GPT-4 (оценочно): 1–1.8 трлн. Claude — Anthropic не раскрывает точных цифр, но масштаб сопоставим. Параметр — это одно число (вес), которое настраивается при обучении. 175 млрд параметров — это примерно 700 ГБ в памяти при хранении в float32.
Что такое механизм внимания (attention) и почему он важен?: Attention позволяет модели при обработке каждого токена смотреть на все остальные токены в контексте и решать, какие из них важны. До трансформеров (RNN, LSTM) модели читали текст последовательно и «забывали» начало длинного текста. Attention снял это ограничение: все токены видны одновременно, и модель сама учится, какие связи важны.
Почему нейросеть галлюцинирует?: Нейросеть не хранит факты — она хранит вероятностные паттерны. Когда модель генерирует следующий токен, она выбирает наиболее вероятное продолжение на основе обученных весов. Иногда «вероятное» не совпадает с «правильным». Плюс явление суперпозиции: модель хранит больше понятий, чем у неё есть измерений, что создаёт интерференцию между похожими концептами.
Что такое суперпозиция в нейросетях?: Исследование Anthropic показало: нейросети хранят больше признаков (features), чем у них есть нейронов. Модель «упаковывает» несколько понятий в одно измерение, используя разреженность — в каждый момент активно лишь небольшое количество признаков. Это объясняет, почему понять что происходит внутри нейросети так сложно: один нейрон может отвечать за несколько не связанных понятий.
Чем трансформер отличается от предыдущих архитектур?: До 2017 года доминировали RNN и LSTM — они читали текст слово за словом, как человек читает книгу. Проблема: длинные зависимости терялись. Трансформер (статья Google Brain 2017 «Attention Is All You Need») убрал рекуррентность и заменил её механизмом внимания. Все токены обрабатываются параллельно. Это позволило масштабировать обучение на GPU и получить скейлинг-законы.

Пока без комментариев. Будьте первым.

Что такое нейросеть: от одного нейрона до трансформера

Один нейрон — что он делает

Слои: откуда берётся «глубина»

Как нейросеть учится

От перцептрона до трансформера: 70 лет

Почему трансформер победил всех

Скейлинг: больше = умнее

Чего мы не знаем

Что дальше в серии

Источники

Источники

Часто задаваемые вопросы

Реквизиты ИП

Банковские реквизиты

Экспресс-проверка репутации

Предварительный анализ

Один нейрон — что он делает

Слои: откуда берётся «глубина»

Как нейросеть учится

От перцептрона до трансформера: 70 лет

Почему трансформер победил всех

Скейлинг: больше = умнее

Чего мы не знаем

Что дальше в серии

Источники

Источники

Читайте также

Часто задаваемые вопросы