Важное
Cursor решил математическую задачу лучше людей — и это уже про бизнес, а не про науку
Агент Cursor автономно решил задачу уровня академических математиков за 4 дня. Разбираем, что это меняет в операционке и unit-экономике среднего бизнеса.
Когда кодинговый агент обходит академических математиков в их же работе — самое время перестать думать об ИИ как об инструменте автодополнения кода.
Агент Cursor, известный как инструмент для написания кода, решил одну из задач First Proof challenge — набора из 10 сложных математических задач от 11 ведущих математиков, включая лауреата Филдсовской премии Мартина Хайрера. Математики подтвердили: решение агента улучшает доказательство до новой константы. Для бизнеса это сигнал пересмотреть потолок ожиданий от автономных агентных систем.
Что случилось
First Proof challenge — это 10 задач из алгебраической комбинаторики, спектральной теории графов, топологии и стохастического анализа. Задачи созданы месяц назад и намеренно закрыты от публикации, чтобы исключить попадание в обучающие данные моделей.
Агент Cursor работал над задачей автономно четыре дня, без подсказок. Внутри — десятки агентов на базе разных моделей, которые динамически распределяют подзадачи и планируют действия. Та же система ранее использовалась для написания браузера с нуля в режиме вайб-кодинга.
Почему это важно для маркетинга и денег
- Горизонт задач расширяется — агент справился с задачей, которая требует нескольких дней работы эксперта уровня топового университета. Это меняет расчёт ROI (возврата на инвестиции) на сложные аналитические и исследовательские задачи: часть работы дорогих консультантов становится автоматизируемой.
- Мультиагентная архитектура меняет CAC (стоимость привлечения) — если система из десятков агентов закрывает то, что раньше требовало команды, стоимость производства сложных продуктов падает. Это давит на маржу конкурентов с высоким операционным плечом.
- Автономность на 4 дня без надзора — это уже операционная реальность, а не демо. Бизнесы, которые умеют ставить задачи агентам и принимать результат, получают асимметричное преимущество по скорости итераций.
Где обычно ломается система (узкие места)
- Постановка задачи: размытый запрос на входе → агент уходит в сторону → результат нерелевантен, хотя технически корректен.
- Верификация результата: нет эксперта для проверки выхода → ошибка проходит в прод → репутационные и финансовые потери.
- Интеграция в процессы: агент работает изолированно → результат не встраивается в продуктовый или маркетинговый пайплайн → эффект близок к нулю.
Как применить в среднем бизнесе за 30 дней
- Аудит сложных повторяющихся задач — выделите 3–5 задач, которые занимают у команды от 8 часов и требуют аналитики или генерации вариантов / зафиксируйте текущие трудозатраты в часах и деньгах.
- Пилот на одной задаче — запустите агентный инструмент (Cursor, Claude, GPT с агентным режимом) на одной из задач в изолированной среде / критерий успеха — результат, проверяемый вашим экспертом.
- Выстройте процедуру верификации — назначьте ответственного за проверку выхода агента / без этого шага масштабировать опасно.
- Оцените дельту по времени и качеству — сравните результат агента с предыдущим ручным исполнением / если дельта положительная — фиксируйте в регламент.
Риски и ограничения (без розовых очков)
- Одна задача из десяти — это 10% успешности на наборе, составленном для людей-экспертов. Масштабировать вывод на весь спектр сложных задач преждевременно.
- Автономная работа на четыре дня требует вычислительных ресурсов и стоит денег. Для среднего бизнеса важно считать стоимость агентного прогона относительно альтернативы.
- Верификация результата требует живого эксперта. Если его нет — риск принять красиво оформленную ошибку за прорыв.
Вывод
Cursor решил задачу исследовательского уровня лучше людей — и это задокументированный факт, а не маркетинговый пресс-релиз. Практический вывод для бизнеса: агентные системы уже работают на горизонте нескольких дней и закрывают задачи уровня дорогого эксперта. Тем, у кого есть сложные аналитические или исследовательские узкие места в процессах, стоит пилотировать прямо сейчас. Тем, у кого нет процедуры верификации выхода — начинать с неё.
Частые вопросы
Cursor — это инструмент для кода. Причём тут математика и бизнес?
Cursor использовал ту же мультиагентную архитектуру, что и для написания кода. Математическая задача потребовала автономного планирования, генерации гипотез и проверки — это те же механики, что нужны для сложных аналитических задач в бизнесе.
Можно ли уже сейчас использовать агентные системы для реальных бизнес-задач?
Да, при двух условиях: чётко сформулированная задача на входе и эксперт для проверки результата на выходе. Без второго условия автономность агента превращается в источник красиво оформленных ошибок.
Насколько дорого обходится запуск агента на сложную задачу?
Публичных данных по стоимости конкретного прогона нет. Ориентир: 4 дня работы десятков агентов на базе frontier-моделей — это сотни долларов минимум. Считайте относительно стоимости альтернативы (часы эксперта × ставка).
Что такое First Proof challenge и почему задачи туда закрыты?
Набор из 10 математических задач от 11 ведущих математиков, включая лауреата Филдсовской премии. Задачи созданы месяц назад и намеренно не публикуются, чтобы они не попали в обучающие данные ИИ-моделей — это обеспечивает чистоту эксперимента.
Пока без комментариев. Будьте первым.