Разбор
$1 млрд на спор с OpenAI: почему AMI Labs считает язык ядом для искусственного интеллекта
Европейский стартап AMI Labs привлёк крупнейший seed-раунд в истории — $1.03 млрд. Их тезис: вся AI-индустрия строит интеллект неправильно. Язык — не фундамент мышления, а костыль. Разбираем, почему это важно для каждого, кто работает с ИИ.
Двадцать человек, ноль продуктов, миллиард долларов. Парижский стартап AMI Labs поднял крупнейший seed-раунд в истории Европы — и поставил его на один тезис: вся индустрия ИИ понимает архитектуру интеллекта неправильно.
Перевёртыш
Старое убеждение: «Чтобы ИИ понял мир — нужно дать ему больше текста, больше токенов, больше масштаба»
Новая реальность: Язык — инструмент общения, не мышления. Он намеренно отбрасывает 99% информации о физическом мире. Масштабирование языковых моделей не закроет этот разрыв — это структурная, а не вычислительная проблема.
Антагонист этой истории — нарратив масштабирования. Убеждение, что если дать модели достаточно текста и вычислений — она «поймёт» всё. Именно этот нарратив направляет сотни миллиардов долларов в одну сторону. AMI Labs говорит: эта сторона — тупик. И ставит миллиард на альтернативу.
Что ты получишь из этого разбора: понимание главного архитектурного спора в AI 2026 года, объяснение того, почему это касается каждого, кто использует ИИ-агентов или строит продукты на LLM — и карту конкурентных позиций ключевых лабораторий.
Кто такой Saining Xie и почему его слова весят
Saining Xie — не стартапер с красивой презентацией. Это один из самых цитируемых исследователей в области компьютерного зрения: ~100 000 цитирований в Google Scholar. Родился в 1990 году. Shanghai Jiao Tong University, UC San Diego, профессор NYU, бывший исследователь Google DeepMind и Meta FAIR.
Его ключевое достижение: Diffusion Transformers — архитектура, на которой построена Sora от OpenAI и большинство современных моделей генерации видео. Это не теоретик-критик на стороне. Это человек, который буквально создал фундамент для одного из главных направлений в AI — и теперь говорит, что всё здание строится на неправильном основании.
В марте 2026-го Xie занял позицию CSO (Chief Science Officer) в AMI Labs. И дал 7-часовое интервью, в котором разобрал по косточкам почему языковые модели не приведут к пониманию физического мира.
«Язык — это яд. Если постоянно использовать костыль, нельзя натренировать мышцы ног.»
— Saining Xie, CSO AMI Labs, 2026
Сделай за 5 минут
Открой любую задачу, где ты используешь ChatGPT/Claude для анализа физического продукта (упаковка, UX физического пространства, мерчандайзинг). Спроси модель конкретный вопрос о физических свойствах — и оцени, насколько ответ полезен по сравнению с опытом человека, который держал этот продукт в руках.
Почему «чашка разбилась» — это ложь
Представь предложение: «Чашка упала на пол и разбилась.» Для общения между людьми — идеально. Мы оба понимаем что произошло. Но посмотри, сколько информации это предложение выбросило:
- С какой высоты упала?
- На какой пол (бетон, ковёр, паркет)?
- Какая масса чашки?
- Как именно разлетелись осколки?
- Какие физические законы управляли паттерном разлома?
Языковая модель, обученная на миллиардах таких предложений, выучит что «чашки хрупкие». Но она не сможет предсказать, какая сила нужна чтобы разбить конкретную чашку о конкретный пол. Потому что языковое описание — это lossy-сжатие реальности, оптимизированное для коммуникации, а не для понимания физики.
Язык — инструмент общения, не мышления
Это ключевой тезис Xie. Язык создавался тысячелетиями для одной цели: передать смысл от одного человека к другому с минимальными затратами. Для этого он намеренно отбрасывает огромные массивы информации о физическом мире — потому что собеседнику они не нужны.
LLM усваивает именно это: сжатое, коммуникационно-оптимизированное описание реальности. Не саму реальность.
Метафора, которую использует Xie: язык — как опиум для AI-систем. Добавление языка к любой системе всегда улучшает бенчмарки — модель лучше отвечает на вопросы. Но это костыль. Ты получаешь иллюзию понимания, а не само понимание. Если хочешь разобраться, как текущие GPT-модели справляются с агентскими задачами — это полезный контекст для понимания границ.
Проблема токенизации: мир не состоит из патчей
Вот как работает зрение у человека. Ты поворачиваешь голову на 5-10 градусов. Твой мозг получает сотни фреймов непрерывной визуальной информации и обновляет пространственную модель мира в реальном времени.
А вот как это делает LLM:
- Каждый фрейм видео разрезается на патчи (квадратные кусочки)
- Каждый патч превращается в дискретный токен
- 256 токенов на фрейм x 128 фреймов = 32 768 токенов
- Трансформер обрабатывает эту плоскую последовательность
Проблема: трансформер не имеет встроенного понятия пространства. Каждый токен может «обращать внимание» на каждый другой — но система вынуждена заново открывать все пространственные отношения из данных. Каждый раз.
«Моделирующая техника языковых моделей не может решить проблему понимания непрерывных пространственных сигналов. Это не вопрос масштаба. Это структурная проблема.»
— Saining Xie, 2026
Мир имеет глобальное состояние: непрерывную, когерентную, трёхмерную структуру. Токенизация сериализует это в плоскую последовательность фрагментов. Как если бы ты разрезал карту мира на тысячу кусочков, перемешал их — и попросил кого-то понять географию, складывая пазл из отдельных фрагментов. Технически возможно. Практически — чудовищно неэффективно.
Для маркетолога аналогия ближе: это как пытаться понять customer journey, имея только отдельные касания в CRM без связей между ними. Данные вроде есть — а картины нет. Кстати, если хочешь посчитать стоимость привлечения клиента через воронку — есть калькулятор CAC.
«Загрязнение» зрения языком: как деньги искажают науку
Вот где история становится по-настоящему неудобной. Xie описывает механизм, знакомый любому маркетологу: нарратив определяет распределение ресурсов.
Схема проста:
- Нарратив: «AGI близко, scaling laws держатся, Bitter Lesson говорит масштабировать»
- Капитал: инвесторы вкладывают в компании, подтверждающие нарратив
- Таланты: лучшие исследователи идут туда, где деньги
- Направление: исследования зрения принудительно направляются через языковые backbone
Результат: vision-исследования строятся поверх языковых моделей не потому что это правильная архитектура для визуального понимания, а потому что именно там инфраструктура, вычисления и бенчмарки. Деньги формируют парадигму, парадигма формирует науку.
«Я глубоко обеспокоен загрязнением vision языком. И это уже происходит,» — говорит Xie.
Парадокс Моравека — и почему роботы всё ещё не могут
Ганс Моравек сформулировал это ещё в 1980-х: то что легко машинам — сложно людям, и наоборот. Шахматы? Машины победили в 1997-м. Распознать кошку на фото? Заняло ещё 15 лет. Пройти по неровной поверхности, не уронив чашку кофе? Каждый трёхлетний ребёнок справляется — а роботам это до сих пор сложно.
Текущая AI-парадигма оптимизирует машинно-лёгкую сторону: текст, код, языковые задачи. А физическое взаимодействие — сторона, которую каждый малыш осваивает интуитивно — остаётся нерешённым. И Xie утверждает: именно потому что мы пытаемся решить физические задачи языковыми инструментами.
Сделай за 5 минут
Попроси ChatGPT или Claude спланировать физическую раскладку товаров на полке магазина. Оцени результат: модель хорошо рассуждает о принципах (на уровне учебника), но не может учесть реальные физические ограничения пространства, вес упаковок и эргономику покупателя. Это и есть разрыв, о котором говорит Xie.
Bitter Lesson — неправильно прочитанный урок
Richard Sutton в 2019 году написал эссе The Bitter Lesson: общие методы, использующие вычисления, всегда побеждают методы, эксплуатирующие знания людей. AI-индустрия восприняла это как догму: масштаб — всё что нужно.
Xie не согласен. И его аргумент элегантен:
Язык — полностью продукт человеческого знания. Он создан цивилизацией за тысячелетия. «Предположим, не было бы интернета — можно было бы обучить языковую модель? Предположим, не было бы книг?» — спрашивает Xie.
Обучение LLM — это не self-supervised learning из сырого опыта (как утверждает нарратив). Это strongly supervised learning на тщательно куратированном выходе человечества. По сути, это самая «человечески нагруженная» форма машинного обучения из возможных — прямая противоположность Bitter Lesson.
Три уровня Bitter Lesson
Xie предлагает иерархию — от наименее к наиболее соответствующему духу Bitter Lesson:
| Уровень | Пространство | Что моделируется | Bitter Lesson? |
|---|---|---|---|
| Label space | LLM | Вероятность человеческих токенов | Наименее |
| Pixel space | Video gen | Пиксели через языковые описания | Средне |
| Learned representations | Цель AMI | Абстрактное latent-пространство для предсказания и действия | Наиболее |
Первый уровень (LLM) — фактически надстройка над человеческим знанием. Второй (генерация видео) — ближе к реальности, но пиксели тоже человеческий интерфейс. Третий — то, что строит AMI: представления, которые модель вырабатывает сама, не привязанные ни к языку, ни к пикселям.
Что именно строит AMI Labs
AMI — не симулятор мира, рендерящий видео. Не чатбот с vision. Их цель — система, ядро которой составляет representation learning для понимания физического мира.
Архитектура (как её описывает Xie):
- Ядро: learned representations — абстрактное внутреннее пространство, оптимизированное для предсказания и действия
- Модуль языка: интерфейс (не фундамент) для общения с человеком
- Модуль видео: декодер из внутреннего представления в пиксели
- Модуль действий: планирование физических действий — третий декодер
Ключевое различие: сегодня в OpenAI, Google, Anthropic язык — фундамент, всё строится поверх него. В AMI фундамент — learned representation физического мира, а язык, пиксели, действия — интерфейсы, декодированные из него.
«Представление — самая важная часть модели мира. Не единственная. Но самая важная,» — формулирует Xie.
Если тебе интересно, как текущие AI-компании выстраивают институциональные стратегии вокруг языковых моделей — эта статья показывает контекст, который AMI Labs оспаривает.
Карта поля боя: кто строит «модель мира»
Спор о правильной архитектуре мирового моделирования — не академический. За каждой позицией стоят funded компании и credentialed исследователи.
| Игрок | Подход | Пространство |
|---|---|---|
| OpenAI / DeepMind / Runway | Video generation как «симуляция мира» | Pixel space |
| World Labs (Fei-Fei Li) | 3D-пространственные представления | 3D assets |
| OpenAI / Anthropic / Google | Язык как неявная модель мира | Label (token) space |
| Moonlake (Goodfellow) | Символические абстракции (код + язык) | Symbol space |
| AMI Labs (Xie) | Learned representations из сенсорных данных | Latent space |
Три фундаментальные позиции: предсказывать в pixel space, symbol space или learned representation space. Каждая ставка — десятки миллиардов долларов. Ответ определит следующие 10 лет AI.
Квиз: проверь, насколько ты понял суть спора
1. Почему Xie называет язык «ядом» для AI?
2. Что такое Bitter Lesson Саттона?
3. Что AMI Labs строит в качестве фундамента?
4. Парадокс Моравека — это…
Почему это важно, если ты не AI-researcher
$1.03 млрд — не аргумент. Это цена за убеждение. Убеждение: language-centric парадигма структурно неспособна создать системы, понимающие физический мир.
Для предпринимателя и маркетолога это означает три вещи:
1. LLM — инструмент для текста, не для физики
Если твой бизнес связан с физическим миром (ритейл, логистика, производство, недвижимость) — не жди от языковых моделей понимания пространства, материалов и движения. Они хороши в текстовых задачах: копирайтинг, аналитика данных, кодирование. Посмотри, как Карпати описывает эру агентов — и заметь, что все примеры — текстовые и кодовые.
2. Нарратив определяет инвестиции
Xie описывает механизм, идентичный маркетинговому: история определяет, куда текут деньги. Если ты строишь продукт на AI — важно понимать, какой нарратив ты покупаешь. «AGI через масштабирование LLM» — это одна ставка. «Нужны принципиально другие архитектуры» — другая. Твои технологические решения сегодня зависят от того, какой нарратив окажется ближе к истине.
3. Следующая волна — physical AI
Роботы, автономные транспортные средства, умные пространства — всё это требует понимания физического мира. Если AMI Labs и подобные компании правы — через 3-5 лет появится новая волна возможностей для продуктов и маркетинга, не связанная с текстовыми ботами. Следи за новостями рынка — мы отслеживаем ключевые сдвиги.
Если ты работаешь с недвижимостью или физическими продуктами, стоит уже сейчас оценивать скорость своих сайтов и считать ROI маркетинговых каналов — эти метрики останутся актуальными при любом исходе AI-спора.
«Единственная причина, почему мне нравится “world model” — это чтобы люди понимали: я строю World Model, а не Word Model.»
— Jitendra Malik, профессор UC Berkeley
Part 2 этого разбора — скоро. Там Xie объяснит, почему scaling laws «содержат воду» и почему увеличение вычислений не решит проблему. Следи за обновлениями.
Что дальше?
В Telegram-канале @lexamarketolog выходят оперативные разборы AI-новостей — без воды, с цифрами. Подпишись, чтобы не пропустить Part 2 про scaling laws.
Также: видео на MAX · разборы в ВК · сторис @loading_express
Обсудить и задать вопросы — в Telegram-канале @lexamarketolog. Видео-разборы — в MAX-канале и ВКонтакте. Сторис — @loading_express.
Источники
Читайте также
- AMI Labs: открытый ИИ-стартап Яна ЛеКуна привлёк стратегических инвесторов ·
- OpenAI привлекла $110 млрд и готовится к IPO: что это значит для рынка ИИ-инструментов ·
- Codex Open Source Fund: что OpenAI даёт разработчикам и чего это стоит бизнесу ·
- Лекун против AGI: зачем нам умный универсал, если нужен специалист ·
- Kimi от Moonshot: $18 млрд оценки — что это говорит о рынке ИИ-инструментов для бизнеса ·
- Welcome sequence: как написать первое письмо с 50%+ open rate ·
Пока без комментариев. Будьте первым.