Разбор

$1 млрд на спор с OpenAI: почему AMI Labs считает язык ядом для искусственного интеллекта

Европейский стартап AMI Labs привлёк крупнейший seed-раунд в истории — $1.03 млрд. Их тезис: вся AI-индустрия строит интеллект неправильно. Язык — не фундамент мышления, а костыль. Разбираем, почему это важно для каждого, кто работает с ИИ.

• 10 мин чтения

  • #ai
  • #llm
  • #world-model
  • #стартапы
  • #исследования

Двадцать человек, ноль продуктов, миллиард долларов. Парижский стартап AMI Labs поднял крупнейший seed-раунд в истории Европы — и поставил его на один тезис: вся индустрия ИИ понимает архитектуру интеллекта неправильно.

$1.03 млрдseed-раунд AMI Labs при оценке $3.5 млрд — крупнейший в истории ЕвропыИсточник: TechCrunch, март 2026

Перевёртыш

Старое убеждение: «Чтобы ИИ понял мир — нужно дать ему больше текста, больше токенов, больше масштаба»
Новая реальность: Язык — инструмент общения, не мышления. Он намеренно отбрасывает 99% информации о физическом мире. Масштабирование языковых моделей не закроет этот разрыв — это структурная, а не вычислительная проблема.

Антагонист этой истории — нарратив масштабирования. Убеждение, что если дать модели достаточно текста и вычислений — она «поймёт» всё. Именно этот нарратив направляет сотни миллиардов долларов в одну сторону. AMI Labs говорит: эта сторона — тупик. И ставит миллиард на альтернативу.

Что ты получишь из этого разбора: понимание главного архитектурного спора в AI 2026 года, объяснение того, почему это касается каждого, кто использует ИИ-агентов или строит продукты на LLM — и карту конкурентных позиций ключевых лабораторий.

Кто такой Saining Xie и почему его слова весят

Saining Xie — не стартапер с красивой презентацией. Это один из самых цитируемых исследователей в области компьютерного зрения: ~100 000 цитирований в Google Scholar. Родился в 1990 году. Shanghai Jiao Tong University, UC San Diego, профессор NYU, бывший исследователь Google DeepMind и Meta FAIR.

Его ключевое достижение: Diffusion Transformers — архитектура, на которой построена Sora от OpenAI и большинство современных моделей генерации видео. Это не теоретик-критик на стороне. Это человек, который буквально создал фундамент для одного из главных направлений в AI — и теперь говорит, что всё здание строится на неправильном основании.

В марте 2026-го Xie занял позицию CSO (Chief Science Officer) в AMI Labs. И дал 7-часовое интервью, в котором разобрал по косточкам почему языковые модели не приведут к пониманию физического мира.

«Язык — это яд. Если постоянно использовать костыль, нельзя натренировать мышцы ног.»

— Saining Xie, CSO AMI Labs, 2026

Сделай за 5 минут

Открой любую задачу, где ты используешь ChatGPT/Claude для анализа физического продукта (упаковка, UX физического пространства, мерчандайзинг). Спроси модель конкретный вопрос о физических свойствах — и оцени, насколько ответ полезен по сравнению с опытом человека, который держал этот продукт в руках.

Почему «чашка разбилась» — это ложь

Представь предложение: «Чашка упала на пол и разбилась.» Для общения между людьми — идеально. Мы оба понимаем что произошло. Но посмотри, сколько информации это предложение выбросило:

  • С какой высоты упала?
  • На какой пол (бетон, ковёр, паркет)?
  • Какая масса чашки?
  • Как именно разлетелись осколки?
  • Какие физические законы управляли паттерном разлома?

Языковая модель, обученная на миллиардах таких предложений, выучит что «чашки хрупкие». Но она не сможет предсказать, какая сила нужна чтобы разбить конкретную чашку о конкретный пол. Потому что языковое описание — это lossy-сжатие реальности, оптимизированное для коммуникации, а не для понимания физики.

Язык — инструмент общения, не мышления

Это ключевой тезис Xie. Язык создавался тысячелетиями для одной цели: передать смысл от одного человека к другому с минимальными затратами. Для этого он намеренно отбрасывает огромные массивы информации о физическом мире — потому что собеседнику они не нужны.

LLM усваивает именно это: сжатое, коммуникационно-оптимизированное описание реальности. Не саму реальность.

Метафора, которую использует Xie: язык — как опиум для AI-систем. Добавление языка к любой системе всегда улучшает бенчмарки — модель лучше отвечает на вопросы. Но это костыль. Ты получаешь иллюзию понимания, а не само понимание. Если хочешь разобраться, как текущие GPT-модели справляются с агентскими задачами — это полезный контекст для понимания границ.

Проблема токенизации: мир не состоит из патчей

Вот как работает зрение у человека. Ты поворачиваешь голову на 5-10 градусов. Твой мозг получает сотни фреймов непрерывной визуальной информации и обновляет пространственную модель мира в реальном времени.

А вот как это делает LLM:

  1. Каждый фрейм видео разрезается на патчи (квадратные кусочки)
  2. Каждый патч превращается в дискретный токен
  3. 256 токенов на фрейм x 128 фреймов = 32 768 токенов
  4. Трансформер обрабатывает эту плоскую последовательность

Проблема: трансформер не имеет встроенного понятия пространства. Каждый токен может «обращать внимание» на каждый другой — но система вынуждена заново открывать все пространственные отношения из данных. Каждый раз.

«Моделирующая техника языковых моделей не может решить проблему понимания непрерывных пространственных сигналов. Это не вопрос масштаба. Это структурная проблема.»

— Saining Xie, 2026

Мир имеет глобальное состояние: непрерывную, когерентную, трёхмерную структуру. Токенизация сериализует это в плоскую последовательность фрагментов. Как если бы ты разрезал карту мира на тысячу кусочков, перемешал их — и попросил кого-то понять географию, складывая пазл из отдельных фрагментов. Технически возможно. Практически — чудовищно неэффективно.

Для маркетолога аналогия ближе: это как пытаться понять customer journey, имея только отдельные касания в CRM без связей между ними. Данные вроде есть — а картины нет. Кстати, если хочешь посчитать стоимость привлечения клиента через воронку — есть калькулятор CAC.

«Загрязнение» зрения языком: как деньги искажают науку

Вот где история становится по-настоящему неудобной. Xie описывает механизм, знакомый любому маркетологу: нарратив определяет распределение ресурсов.

Схема проста:

  1. Нарратив: «AGI близко, scaling laws держатся, Bitter Lesson говорит масштабировать»
  2. Капитал: инвесторы вкладывают в компании, подтверждающие нарратив
  3. Таланты: лучшие исследователи идут туда, где деньги
  4. Направление: исследования зрения принудительно направляются через языковые backbone

Результат: vision-исследования строятся поверх языковых моделей не потому что это правильная архитектура для визуального понимания, а потому что именно там инфраструктура, вычисления и бенчмарки. Деньги формируют парадигму, парадигма формирует науку.

«Я глубоко обеспокоен загрязнением vision языком. И это уже происходит,» — говорит Xie.

Парадокс Моравека — и почему роботы всё ещё не могут

Ганс Моравек сформулировал это ещё в 1980-х: то что легко машинам — сложно людям, и наоборот. Шахматы? Машины победили в 1997-м. Распознать кошку на фото? Заняло ещё 15 лет. Пройти по неровной поверхности, не уронив чашку кофе? Каждый трёхлетний ребёнок справляется — а роботам это до сих пор сложно.

Текущая AI-парадигма оптимизирует машинно-лёгкую сторону: текст, код, языковые задачи. А физическое взаимодействие — сторона, которую каждый малыш осваивает интуитивно — остаётся нерешённым. И Xie утверждает: именно потому что мы пытаемся решить физические задачи языковыми инструментами.

Сделай за 5 минут

Попроси ChatGPT или Claude спланировать физическую раскладку товаров на полке магазина. Оцени результат: модель хорошо рассуждает о принципах (на уровне учебника), но не может учесть реальные физические ограничения пространства, вес упаковок и эргономику покупателя. Это и есть разрыв, о котором говорит Xie.

Bitter Lesson — неправильно прочитанный урок

Richard Sutton в 2019 году написал эссе The Bitter Lesson: общие методы, использующие вычисления, всегда побеждают методы, эксплуатирующие знания людей. AI-индустрия восприняла это как догму: масштаб — всё что нужно.

Xie не согласен. И его аргумент элегантен:

Язык — полностью продукт человеческого знания. Он создан цивилизацией за тысячелетия. «Предположим, не было бы интернета — можно было бы обучить языковую модель? Предположим, не было бы книг?» — спрашивает Xie.

Обучение LLM — это не self-supervised learning из сырого опыта (как утверждает нарратив). Это strongly supervised learning на тщательно куратированном выходе человечества. По сути, это самая «человечески нагруженная» форма машинного обучения из возможных — прямая противоположность Bitter Lesson.

Три уровня Bitter Lesson

Xie предлагает иерархию — от наименее к наиболее соответствующему духу Bitter Lesson:

УровеньПространствоЧто моделируетсяBitter Lesson?
Label spaceLLMВероятность человеческих токеновНаименее
Pixel spaceVideo genПиксели через языковые описанияСредне
Learned representationsЦель AMIАбстрактное latent-пространство для предсказания и действияНаиболее

Первый уровень (LLM) — фактически надстройка над человеческим знанием. Второй (генерация видео) — ближе к реальности, но пиксели тоже человеческий интерфейс. Третий — то, что строит AMI: представления, которые модель вырабатывает сама, не привязанные ни к языку, ни к пикселям.

Что именно строит AMI Labs

AMI — не симулятор мира, рендерящий видео. Не чатбот с vision. Их цель — система, ядро которой составляет representation learning для понимания физического мира.

Архитектура (как её описывает Xie):

  • Ядро: learned representations — абстрактное внутреннее пространство, оптимизированное для предсказания и действия
  • Модуль языка: интерфейс (не фундамент) для общения с человеком
  • Модуль видео: декодер из внутреннего представления в пиксели
  • Модуль действий: планирование физических действий — третий декодер

Ключевое различие: сегодня в OpenAI, Google, Anthropic язык — фундамент, всё строится поверх него. В AMI фундамент — learned representation физического мира, а язык, пиксели, действия — интерфейсы, декодированные из него.

«Представление — самая важная часть модели мира. Не единственная. Но самая важная,» — формулирует Xie.

Если тебе интересно, как текущие AI-компании выстраивают институциональные стратегии вокруг языковых моделей — эта статья показывает контекст, который AMI Labs оспаривает.

Карта поля боя: кто строит «модель мира»

Спор о правильной архитектуре мирового моделирования — не академический. За каждой позицией стоят funded компании и credentialed исследователи.

ИгрокПодходПространство
OpenAI / DeepMind / RunwayVideo generation как «симуляция мира»Pixel space
World Labs (Fei-Fei Li)3D-пространственные представления3D assets
OpenAI / Anthropic / GoogleЯзык как неявная модель мираLabel (token) space
Moonlake (Goodfellow)Символические абстракции (код + язык)Symbol space
AMI Labs (Xie)Learned representations из сенсорных данныхLatent space

Три фундаментальные позиции: предсказывать в pixel space, symbol space или learned representation space. Каждая ставка — десятки миллиардов долларов. Ответ определит следующие 10 лет AI.

Квиз: проверь, насколько ты понял суть спора

1. Почему Xie называет язык «ядом» для AI?

Язык намеренно отбрасывает физическую информацию о мире, оставляя только коммуникативный смысл. LLM обучается на этом сжатии — и принимает его за полную картину.

2. Что такое Bitter Lesson Саттона?

Sutton (2019) показал, что в долгосрочной перспективе масштабируемые общие подходы побеждают ручные эвристики. Но Xie утверждает, что LLM — это как раз максимально «человечески нагруженный» подход, противоречащий этому принципу.

3. Что AMI Labs строит в качестве фундамента?

AMI строит систему, где ядро — не язык и не пиксели, а абстрактные внутренние представления мира. Язык, видео и действия — лишь интерфейсные модули-декодеры.

4. Парадокс Моравека — это…

Моравек заметил: шахматы (сложные для людей) машины освоили рано, а простейшие физические действия (лёгкие для людей) до сих пор даются роботам с трудом. Текущая парадигма LLM оптимизирует «машинно-лёгкую» сторону.

Почему это важно, если ты не AI-researcher

$1.03 млрд — не аргумент. Это цена за убеждение. Убеждение: language-centric парадигма структурно неспособна создать системы, понимающие физический мир.

Для предпринимателя и маркетолога это означает три вещи:

1. LLM — инструмент для текста, не для физики

Если твой бизнес связан с физическим миром (ритейл, логистика, производство, недвижимость) — не жди от языковых моделей понимания пространства, материалов и движения. Они хороши в текстовых задачах: копирайтинг, аналитика данных, кодирование. Посмотри, как Карпати описывает эру агентов — и заметь, что все примеры — текстовые и кодовые.

2. Нарратив определяет инвестиции

Xie описывает механизм, идентичный маркетинговому: история определяет, куда текут деньги. Если ты строишь продукт на AI — важно понимать, какой нарратив ты покупаешь. «AGI через масштабирование LLM» — это одна ставка. «Нужны принципиально другие архитектуры» — другая. Твои технологические решения сегодня зависят от того, какой нарратив окажется ближе к истине.

3. Следующая волна — physical AI

Роботы, автономные транспортные средства, умные пространства — всё это требует понимания физического мира. Если AMI Labs и подобные компании правы — через 3-5 лет появится новая волна возможностей для продуктов и маркетинга, не связанная с текстовыми ботами. Следи за новостями рынка — мы отслеживаем ключевые сдвиги.

Если ты работаешь с недвижимостью или физическими продуктами, стоит уже сейчас оценивать скорость своих сайтов и считать ROI маркетинговых каналов — эти метрики останутся актуальными при любом исходе AI-спора.

«Единственная причина, почему мне нравится “world model” — это чтобы люди понимали: я строю World Model, а не Word Model.»

— Jitendra Malik, профессор UC Berkeley

Part 2 этого разбора — скоро. Там Xie объяснит, почему scaling laws «содержат воду» и почему увеличение вычислений не решит проблему. Следи за обновлениями.

Что дальше?

В Telegram-канале @lexamarketolog выходят оперативные разборы AI-новостей — без воды, с цифрами. Подпишись, чтобы не пропустить Part 2 про scaling laws.

Также: видео на MAX · разборы в ВК · сторис @loading_express

Обсудить и задать вопросы — в Telegram-канале @lexamarketolog. Видео-разборы — в MAX-канале и ВКонтакте. Сторис — @loading_express.

Источники

Обсуждение

    Пока без комментариев. Будьте первым.

    Войдите, чтобы отправить комментарий

    Вы сможете комментировать статьи, сохранять материалы

    или войдите по email

    Бесплатная диагностика · 30 минут · без обязательств

    Маркетинг работает, но продажи не растут?

    Отвечу на 3–5 вопросов о вашем бизнесе — и мы вместе разберём, где именно теряются клиенты и что с этим делать.

    Без продаж. Без навязчивых звонков.