Агент Cursor, известный как инструмент для написания кода, решил одну из задач First Proof challenge — набора из 10 сложных математических задач от 11 ведущих математиков, включая лауреата Филдсовской премии Мартина Хайрера. Математики подтвердили: решение агента улучшает доказательство до новой константы. Для бизнеса это сигнал пересмотреть потолок ожиданий от автономных агентных систем.
Что случилось
First Proof challenge — это 10 задач из алгебраической комбинаторики, спектральной теории графов, топологии и стохастического анализа. Задачи созданы месяц назад и намеренно закрыты от публикации, чтобы исключить попадание в обучающие данные моделей.
Агент Cursor работал над задачей автономно четыре дня, без подсказок. Внутри — десятки агентов на базе разных моделей, которые динамически распределяют подзадачи и планируют действия. Та же система ранее использовалась для написания браузера с нуля в режиме вайб-кодинга.
Почему это важно для маркетинга и денег
- Горизонт задач расширяется — агент справился с задачей, которая требует нескольких дней работы эксперта уровня топового университета. Это меняет расчёт ROI (возврата на инвестиции) на сложные аналитические и исследовательские задачи: часть работы дорогих консультантов становится автоматизируемой.
- Мультиагентная архитектура меняет CAC (стоимость привлечения) — если система из десятков агентов закрывает то, что раньше требовало команды, стоимость производства сложных продуктов падает. Это давит на маржу конкурентов с высоким операционным плечом.
- Автономность на 4 дня без надзора — это уже операционная реальность, а не демо. Бизнесы, которые умеют ставить задачи агентам и принимать результат, получают асимметричное преимущество по скорости итераций.
Где обычно ломается система (узкие места)
- Постановка задачи: размытый запрос на входе → агент уходит в сторону → результат нерелевантен, хотя технически корректен.
- Верификация результата: нет эксперта для проверки выхода → ошибка проходит в прод → репутационные и финансовые потери.
- Интеграция в процессы: агент работает изолированно → результат не встраивается в продуктовый или маркетинговый пайплайн → эффект близок к нулю.
Как применить в среднем бизнесе за 30 дней
- Аудит сложных повторяющихся задач — выделите 3–5 задач, которые занимают у команды от 8 часов и требуют аналитики или генерации вариантов / зафиксируйте текущие трудозатраты в часах и деньгах.
- Пилот на одной задаче — запустите агентный инструмент (Cursor, Claude, GPT с агентным режимом) на одной из задач в изолированной среде / критерий успеха — результат, проверяемый вашим экспертом.
- Выстройте процедуру верификации — назначьте ответственного за проверку выхода агента / без этого шага масштабировать опасно.
- Оцените дельту по времени и качеству — сравните результат агента с предыдущим ручным исполнением / если дельта положительная — фиксируйте в регламент.
Риски и ограничения (без розовых очков)
- Одна задача из десяти — это 10% успешности на наборе, составленном для людей-экспертов. Масштабировать вывод на весь спектр сложных задач преждевременно.
- Автономная работа на четыре дня требует вычислительных ресурсов и стоит денег. Для среднего бизнеса важно считать стоимость агентного прогона относительно альтернативы.
- Верификация результата требует живого эксперта. Если его нет — риск принять красиво оформленную ошибку за прорыв.
Вывод
Cursor решил задачу исследовательского уровня лучше людей — и это задокументированный факт, а не маркетинговый пресс-релиз. Практический вывод для бизнеса: агентные системы уже работают на горизонте нескольких дней и закрывают задачи уровня дорогого эксперта. Тем, у кого есть сложные аналитические или исследовательские узкие места в процессах, стоит пилотировать прямо сейчас. Тем, у кого нет процедуры верификации выхода — начинать с неё.
Пока без комментариев. Будьте первым.