Meituan (китайский технологический холдинг) выпустил открытую модель LongCat-Flash-Prover. Целевая аудитория: исследователи формальной математики, инженеры верификации ПО и команды, которым нужна автоматизированная проверка логических доказательств.
Что под капотом (Реальный функционал)
- Гибридная архитектура экспертов — модель генерирует несколько цепочек рассуждений параллельно и отбирает лучшую. Снижает вероятность ошибки на нетривиальных задачах.
- Алгоритм HisPO — удерживает контекст длинной логической цепочки без деградации качества. Критично для многошаговых доказательств.
- Верификатор Lean4 + AST-анализ — каждый шаг доказательства проходит формальную проверку через Lean4. Галлюцинации отфильтровываются на уровне синтаксиса и семантики, по данным компании.
- Бенчмарки: 97.1% на MiniF2F (72 попытки), 41.5% на PutnamBench — по данным компании из технического отчёта.
Цена вопроса (Тарифы и экономика)
Модель открытая, доступна на GitHub и Hugging Face бесплатно. Прямых затрат на лицензию нет. Реальная стоимость внедрения — вычислительные ресурсы для инференса и время команды на интеграцию с Lean4. Для среднего исследовательского кластера это от 2 000 до 8 000 рублей в месяц за GPU-часы, в зависимости от нагрузки. Для продакшн-интеграции в корпоративную верификацию ПО — добавьте DevOps-ресурс минимум на 2–4 недели.
Сравнение лоб в лоб с конкурентами
| Параметр | LongCat-Flash-Prover | DeepSeek-Prover-V2 | Lean Copilot (MIT) |
|---|---|---|---|
| Главная фича | Гибрид экспертов + HisPO + Lean4 | Сильный математический рассуждатель | Интерактивный помощник в Lean |
| MiniF2F | 97.1% (72 попытки) | ~88% (по публичным данным) | Данные не публикуются |
| Лицензия / Порог входа | Открытая, GitHub + HF | Открытая | Открытая, плагин к IDE |
| Верификация доказательств | Lean4 + AST | Lean4 | Lean4 |
| Кому подходит | Исследователи, формальная верификация | Математические задачи уровня Olympiad | Разработчики, пишущие на Lean |
(Данные по DeepSeek-Prover-V2 — публичные бенчмарки на момент релиза. Прямое сравнение на одинаковом тестовом стенде в публичных источниках не представлено.)
Плюсы и минусы (Без розовых очков)
Где сервис разгоняет систему (Плюсы):
- 97.1% на MiniF2F — лучший публичный результат среди открытых моделей на этом бенчмарке на момент релиза.
- Lean4-верификация встроена в пайплайн: не нужно строить внешний валидатор вручную.
- Открытый код и веса: можно дообучить под корпоративную специфику без вендорной зависимости.
- HisPO решает реальную проблему деградации длинных цепочек — не косметическое улучшение.
Где сервис станет узким местом (Минусы):
- Узкая специализация: за пределами формальной математики и верификации модель не конкурентоспособна.
- Lean4 — нишевый инструмент. Команде без опыта работы с ним потребуется онбординг.
- 41.5% на PutnamBench — сильный результат в академическом контексте, но это значит, что 58.5% задач уровня Putnam модель не решает.
- Воспроизводимость бенчмарков требует проверки: 72 попытки на MiniF2F — это параметр, который влияет на сравнение с другими моделями.
- Инфраструктура для GPU-инференса и интеграция с Lean4 — не задача выходного дня.
Вывод: кому внедрять завтра, а кому пройти мимо
Внедрять сейчас стоит командам, которые уже работают с Lean4 или строят системы формальной верификации: авиация, финансовые модели с регуляторной проверкой, исследовательские лаборатории. Здесь модель даёт измеримый прирост: убирает ручную проверку шагов доказательства и снижает стоимость ошибки.
Среднему бизнесу без математической верификации в продукте — проходить мимо. ROI (возврат на инвестиции) будет нулевым: это инструмент для очень конкретного технического слоя.
Осторожно: бенчмарки компания публикует самостоятельно. Независимого воспроизведения результатов в открытых источниках на момент релиза нет. Перед интеграцией — запускайте собственный тест на вашем наборе задач.
Пока без комментариев. Будьте первым.