Разбор

$1 млрд на спор с OpenAI: почему AMI Labs считает язык ядом для искусственного интеллекта

Европейский стартап AMI Labs привлёк крупнейший seed-раунд в истории — $1.03 млрд. Их тезис: вся AI-индустрия строит интеллект неправильно. Язык — не фундамент мышления, а костыль. Разбираем, почему это важно для каждого, кто работает с ИИ.

Лёха Маркетолог • 23.03.2026 • 10 мин чтения

Двадцать человек, ноль продуктов, миллиард долларов. Парижский стартап AMI Labs поднял крупнейший seed-раунд в истории Европы — и поставил его на один тезис: вся индустрия ИИ понимает архитектуру интеллекта неправильно.

$1.03 млрдseed-раунд AMI Labs при оценке $3.5 млрд — крупнейший в истории ЕвропыИсточник: TechCrunch, март 2026

Перевёртыш

~~Старое убеждение:~~ «Чтобы ИИ понял мир — нужно дать ему больше текста, больше токенов, больше масштаба»
Новая реальность: Язык — инструмент общения, не мышления. Он намеренно отбрасывает 99% информации о физическом мире. Масштабирование языковых моделей не закроет этот разрыв — это структурная, а не вычислительная проблема.

Антагонист этой истории — нарратив масштабирования. Убеждение, что если дать модели достаточно текста и вычислений — она «поймёт» всё. Именно этот нарратив направляет сотни миллиардов долларов в одну сторону. AMI Labs говорит: эта сторона — тупик. И ставит миллиард на альтернативу.

Что ты получишь из этого разбора: понимание главного архитектурного спора в AI 2026 года, объяснение того, почему это касается каждого, кто использует ИИ-агентов или строит продукты на LLM — и карту конкурентных позиций ключевых лабораторий.

Кто такой Saining Xie и почему его слова весят

Saining Xie — не стартапер с красивой презентацией. Это один из самых цитируемых исследователей в области компьютерного зрения: ~100 000 цитирований в Google Scholar. Родился в 1990 году. Shanghai Jiao Tong University, UC San Diego, профессор NYU, бывший исследователь Google DeepMind и Meta FAIR.

Его ключевое достижение: Diffusion Transformers — архитектура, на которой построена Sora от OpenAI и большинство современных моделей генерации видео. Это не теоретик-критик на стороне. Это человек, который буквально создал фундамент для одного из главных направлений в AI — и теперь говорит, что всё здание строится на неправильном основании.

В марте 2026-го Xie занял позицию CSO (Chief Science Officer) в AMI Labs. И дал 7-часовое интервью, в котором разобрал по косточкам почему языковые модели не приведут к пониманию физического мира.

«Язык — это яд. Если постоянно использовать костыль, нельзя натренировать мышцы ног.»
— Saining Xie, CSO AMI Labs, 2026

Сделай за 5 минут

Открой любую задачу, где ты используешь ChatGPT/Claude для анализа физического продукта (упаковка, UX физического пространства, мерчандайзинг). Спроси модель конкретный вопрос о физических свойствах — и оцени, насколько ответ полезен по сравнению с опытом человека, который держал этот продукт в руках.

Почему «чашка разбилась» — это ложь

Представь предложение: «Чашка упала на пол и разбилась.» Для общения между людьми — идеально. Мы оба понимаем что произошло. Но посмотри, сколько информации это предложение выбросило:

С какой высоты упала?
На какой пол (бетон, ковёр, паркет)?
Какая масса чашки?
Как именно разлетелись осколки?
Какие физические законы управляли паттерном разлома?

Языковая модель, обученная на миллиардах таких предложений, выучит что «чашки хрупкие». Но она не сможет предсказать, какая сила нужна чтобы разбить конкретную чашку о конкретный пол. Потому что языковое описание — это lossy-сжатие реальности, оптимизированное для коммуникации, а не для понимания физики.

Язык — инструмент общения, не мышления

Это ключевой тезис Xie. Язык создавался тысячелетиями для одной цели: передать смысл от одного человека к другому с минимальными затратами. Для этого он намеренно отбрасывает огромные массивы информации о физическом мире — потому что собеседнику они не нужны.

LLM усваивает именно это: сжатое, коммуникационно-оптимизированное описание реальности. Не саму реальность.

Метафора, которую использует Xie: язык — как опиум для AI-систем. Добавление языка к любой системе всегда улучшает бенчмарки — модель лучше отвечает на вопросы. Но это костыль. Ты получаешь иллюзию понимания, а не само понимание. Если хочешь разобраться, как текущие GPT-модели справляются с агентскими задачами — это полезный контекст для понимания границ.

Проблема токенизации: мир не состоит из патчей

Вот как работает зрение у человека. Ты поворачиваешь голову на 5-10 градусов. Твой мозг получает сотни фреймов непрерывной визуальной информации и обновляет пространственную модель мира в реальном времени.

А вот как это делает LLM:

Каждый фрейм видео разрезается на патчи (квадратные кусочки)
Каждый патч превращается в дискретный токен
256 токенов на фрейм x 128 фреймов = 32 768 токенов
Трансформер обрабатывает эту плоскую последовательность

Проблема: трансформер не имеет встроенного понятия пространства. Каждый токен может «обращать внимание» на каждый другой — но система вынуждена заново открывать все пространственные отношения из данных. Каждый раз.

«Моделирующая техника языковых моделей не может решить проблему понимания непрерывных пространственных сигналов. Это не вопрос масштаба. Это структурная проблема.»
— Saining Xie, 2026

Мир имеет глобальное состояние: непрерывную, когерентную, трёхмерную структуру. Токенизация сериализует это в плоскую последовательность фрагментов. Как если бы ты разрезал карту мира на тысячу кусочков, перемешал их — и попросил кого-то понять географию, складывая пазл из отдельных фрагментов. Технически возможно. Практически — чудовищно неэффективно.

Для маркетолога аналогия ближе: это как пытаться понять customer journey, имея только отдельные касания в CRM без связей между ними. Данные вроде есть — а картины нет. Кстати, если хочешь посчитать стоимость привлечения клиента через воронку — есть калькулятор CAC.

«Загрязнение» зрения языком: как деньги искажают науку

Вот где история становится по-настоящему неудобной. Xie описывает механизм, знакомый любому маркетологу: нарратив определяет распределение ресурсов.

Схема проста:

Нарратив: «AGI близко, scaling laws держатся, Bitter Lesson говорит масштабировать»
Капитал: инвесторы вкладывают в компании, подтверждающие нарратив
Таланты: лучшие исследователи идут туда, где деньги
Направление: исследования зрения принудительно направляются через языковые backbone

Результат: vision-исследования строятся поверх языковых моделей не потому что это правильная архитектура для визуального понимания, а потому что именно там инфраструктура, вычисления и бенчмарки. Деньги формируют парадигму, парадигма формирует науку.

«Я глубоко обеспокоен загрязнением vision языком. И это уже происходит,» — говорит Xie.

Парадокс Моравека — и почему роботы всё ещё не могут

Ганс Моравек сформулировал это ещё в 1980-х: то что легко машинам — сложно людям, и наоборот. Шахматы? Машины победили в 1997-м. Распознать кошку на фото? Заняло ещё 15 лет. Пройти по неровной поверхности, не уронив чашку кофе? Каждый трёхлетний ребёнок справляется — а роботам это до сих пор сложно.

Текущая AI-парадигма оптимизирует машинно-лёгкую сторону: текст, код, языковые задачи. А физическое взаимодействие — сторона, которую каждый малыш осваивает интуитивно — остаётся нерешённым. И Xie утверждает: именно потому что мы пытаемся решить физические задачи языковыми инструментами.

Сделай за 5 минут

Попроси ChatGPT или Claude спланировать физическую раскладку товаров на полке магазина. Оцени результат: модель хорошо рассуждает о принципах (на уровне учебника), но не может учесть реальные физические ограничения пространства, вес упаковок и эргономику покупателя. Это и есть разрыв, о котором говорит Xie.

Bitter Lesson — неправильно прочитанный урок

Richard Sutton в 2019 году написал эссе The Bitter Lesson: общие методы, использующие вычисления, всегда побеждают методы, эксплуатирующие знания людей. AI-индустрия восприняла это как догму: масштаб — всё что нужно.

Xie не согласен. И его аргумент элегантен:

Язык — полностью продукт человеческого знания. Он создан цивилизацией за тысячелетия. «Предположим, не было бы интернета — можно было бы обучить языковую модель? Предположим, не было бы книг?» — спрашивает Xie.

Обучение LLM — это не self-supervised learning из сырого опыта (как утверждает нарратив). Это strongly supervised learning на тщательно куратированном выходе человечества. По сути, это самая «человечески нагруженная» форма машинного обучения из возможных — прямая противоположность Bitter Lesson.

Три уровня Bitter Lesson

Xie предлагает иерархию — от наименее к наиболее соответствующему духу Bitter Lesson:

Уровень	Пространство	Что моделируется	Bitter Lesson?
Label space	LLM	Вероятность человеческих токенов	Наименее
Pixel space	Video gen	Пиксели через языковые описания	Средне
Learned representations	Цель AMI	Абстрактное latent-пространство для предсказания и действия	Наиболее

Первый уровень (LLM) — фактически надстройка над человеческим знанием. Второй (генерация видео) — ближе к реальности, но пиксели тоже человеческий интерфейс. Третий — то, что строит AMI: представления, которые модель вырабатывает сама, не привязанные ни к языку, ни к пикселям.

Что именно строит AMI Labs

AMI — не симулятор мира, рендерящий видео. Не чатбот с vision. Их цель — система, ядро которой составляет representation learning для понимания физического мира.

Архитектура (как её описывает Xie):

Ядро: learned representations — абстрактное внутреннее пространство, оптимизированное для предсказания и действия
Модуль языка: интерфейс (не фундамент) для общения с человеком
Модуль видео: декодер из внутреннего представления в пиксели
Модуль действий: планирование физических действий — третий декодер

Ключевое различие: сегодня в OpenAI, Google, Anthropic язык — фундамент, всё строится поверх него. В AMI фундамент — learned representation физического мира, а язык, пиксели, действия — интерфейсы, декодированные из него.

«Представление — самая важная часть модели мира. Не единственная. Но самая важная,» — формулирует Xie.

Если тебе интересно, как текущие AI-компании выстраивают институциональные стратегии вокруг языковых моделей — эта статья показывает контекст, который AMI Labs оспаривает.

Карта поля боя: кто строит «модель мира»

Спор о правильной архитектуре мирового моделирования — не академический. За каждой позицией стоят funded компании и credentialed исследователи.

Игрок	Подход	Пространство
OpenAI / DeepMind / Runway	Video generation как «симуляция мира»	Pixel space
World Labs (Fei-Fei Li)	3D-пространственные представления	3D assets
OpenAI / Anthropic / Google	Язык как неявная модель мира	Label (token) space
Moonlake (Goodfellow)	Символические абстракции (код + язык)	Symbol space
AMI Labs (Xie)	Learned representations из сенсорных данных	Latent space

Три фундаментальные позиции: предсказывать в pixel space, symbol space или learned representation space. Каждая ставка — десятки миллиардов долларов. Ответ определит следующие 10 лет AI.

Квиз: проверь, насколько ты понял суть спора

1. Почему Xie называет язык «ядом» для AI?

Язык намеренно отбрасывает физическую информацию о мире, оставляя только коммуникативный смысл. LLM обучается на этом сжатии — и принимает его за полную картину.

2. Что такое Bitter Lesson Саттона?

Sutton (2019) показал, что в долгосрочной перспективе масштабируемые общие подходы побеждают ручные эвристики. Но Xie утверждает, что LLM — это как раз максимально «человечески нагруженный» подход, противоречащий этому принципу.

3. Что AMI Labs строит в качестве фундамента?

AMI строит систему, где ядро — не язык и не пиксели, а абстрактные внутренние представления мира. Язык, видео и действия — лишь интерфейсные модули-декодеры.

4. Парадокс Моравека — это…

Моравек заметил: шахматы (сложные для людей) машины освоили рано, а простейшие физические действия (лёгкие для людей) до сих пор даются роботам с трудом. Текущая парадигма LLM оптимизирует «машинно-лёгкую» сторону.

Почему это важно, если ты не AI-researcher

$1.03 млрд — не аргумент. Это цена за убеждение. Убеждение: language-centric парадигма структурно неспособна создать системы, понимающие физический мир.

Для предпринимателя и маркетолога это означает три вещи:

1. LLM — инструмент для текста, не для физики

Если твой бизнес связан с физическим миром (ритейл, логистика, производство, недвижимость) — не жди от языковых моделей понимания пространства, материалов и движения. Они хороши в текстовых задачах: копирайтинг, аналитика данных, кодирование. Посмотри, как Карпати описывает эру агентов — и заметь, что все примеры — текстовые и кодовые.

2. Нарратив определяет инвестиции

Xie описывает механизм, идентичный маркетинговому: история определяет, куда текут деньги. Если ты строишь продукт на AI — важно понимать, какой нарратив ты покупаешь. «AGI через масштабирование LLM» — это одна ставка. «Нужны принципиально другие архитектуры» — другая. Твои технологические решения сегодня зависят от того, какой нарратив окажется ближе к истине.

3. Следующая волна — physical AI

Роботы, автономные транспортные средства, умные пространства — всё это требует понимания физического мира. Если AMI Labs и подобные компании правы — через 3-5 лет появится новая волна возможностей для продуктов и маркетинга, не связанная с текстовыми ботами. Следи за новостями рынка — мы отслеживаем ключевые сдвиги.

Если ты работаешь с недвижимостью или физическими продуктами, стоит уже сейчас оценивать скорость своих сайтов и считать ROI маркетинговых каналов — эти метрики останутся актуальными при любом исходе AI-спора.

«Единственная причина, почему мне нравится “world model” — это чтобы люди понимали: я строю World Model, а не Word Model.»
— Jitendra Malik, профессор UC Berkeley

Part 2 этого разбора — скоро. Там Xie объяснит, почему scaling laws «содержат воду» и почему увеличение вычислений не решит проблему. Следи за обновлениями.

Что дальше?

В Telegram-канале @lexamarketolog выходят оперативные разборы AI-новостей — без воды, с цифрами. Подпишись, чтобы не пропустить Part 2 про scaling laws.

Также: видео на MAX · разборы в ВК · сторис @loading_express

Обсудить и задать вопросы — в Telegram-канале @lexamarketolog. Видео-разборы — в MAX-канале и ВКонтакте. Сторис — @loading_express.

Источники

Пока без комментариев. Будьте первым.

$1 млрд на спор с OpenAI: почему AMI Labs считает язык ядом для искусственного интеллекта

Кто такой Saining Xie и почему его слова весят