Важное

Cursor решил математическую задачу лучше людей — и это уже про бизнес, а не про науку

Агент Cursor автономно решил задачу уровня академических математиков за 4 дня. Разбираем, что это меняет в операционке и unit-экономике среднего бизнеса.

• 3 мин чтения

Когда кодинговый агент обходит академических математиков в их же работе — самое время перестать думать об ИИ как об инструменте автодополнения кода.

Алексей Махметхажиев Алексей Махметхажиев

Агент Cursor, известный как инструмент для написания кода, решил одну из задач First Proof challenge — набора из 10 сложных математических задач от 11 ведущих математиков, включая лауреата Филдсовской премии Мартина Хайрера. Математики подтвердили: решение агента улучшает доказательство до новой константы. Для бизнеса это сигнал пересмотреть потолок ожиданий от автономных агентных систем.

Что случилось

First Proof challenge — это 10 задач из алгебраической комбинаторики, спектральной теории графов, топологии и стохастического анализа. Задачи созданы месяц назад и намеренно закрыты от публикации, чтобы исключить попадание в обучающие данные моделей.

Агент Cursor работал над задачей автономно четыре дня, без подсказок. Внутри — десятки агентов на базе разных моделей, которые динамически распределяют подзадачи и планируют действия. Та же система ранее использовалась для написания браузера с нуля в режиме вайб-кодинга.

Почему это важно для маркетинга и денег

  • Горизонт задач расширяется — агент справился с задачей, которая требует нескольких дней работы эксперта уровня топового университета. Это меняет расчёт ROI (возврата на инвестиции) на сложные аналитические и исследовательские задачи: часть работы дорогих консультантов становится автоматизируемой.
  • Мультиагентная архитектура меняет CAC (стоимость привлечения) — если система из десятков агентов закрывает то, что раньше требовало команды, стоимость производства сложных продуктов падает. Это давит на маржу конкурентов с высоким операционным плечом.
  • Автономность на 4 дня без надзора — это уже операционная реальность, а не демо. Бизнесы, которые умеют ставить задачи агентам и принимать результат, получают асимметричное преимущество по скорости итераций.

Где обычно ломается система (узкие места)

  • Постановка задачи: размытый запрос на входе → агент уходит в сторону → результат нерелевантен, хотя технически корректен.
  • Верификация результата: нет эксперта для проверки выхода → ошибка проходит в прод → репутационные и финансовые потери.
  • Интеграция в процессы: агент работает изолированно → результат не встраивается в продуктовый или маркетинговый пайплайн → эффект близок к нулю.

Как применить в среднем бизнесе за 30 дней

  1. Аудит сложных повторяющихся задач — выделите 3–5 задач, которые занимают у команды от 8 часов и требуют аналитики или генерации вариантов / зафиксируйте текущие трудозатраты в часах и деньгах.
  2. Пилот на одной задаче — запустите агентный инструмент (Cursor, Claude, GPT с агентным режимом) на одной из задач в изолированной среде / критерий успеха — результат, проверяемый вашим экспертом.
  3. Выстройте процедуру верификации — назначьте ответственного за проверку выхода агента / без этого шага масштабировать опасно.
  4. Оцените дельту по времени и качеству — сравните результат агента с предыдущим ручным исполнением / если дельта положительная — фиксируйте в регламент.

Риски и ограничения (без розовых очков)

  • Одна задача из десяти — это 10% успешности на наборе, составленном для людей-экспертов. Масштабировать вывод на весь спектр сложных задач преждевременно.
  • Автономная работа на четыре дня требует вычислительных ресурсов и стоит денег. Для среднего бизнеса важно считать стоимость агентного прогона относительно альтернативы.
  • Верификация результата требует живого эксперта. Если его нет — риск принять красиво оформленную ошибку за прорыв.

Вывод

Cursor решил задачу исследовательского уровня лучше людей — и это задокументированный факт, а не маркетинговый пресс-релиз. Практический вывод для бизнеса: агентные системы уже работают на горизонте нескольких дней и закрывают задачи уровня дорогого эксперта. Тем, у кого есть сложные аналитические или исследовательские узкие места в процессах, стоит пилотировать прямо сейчас. Тем, у кого нет процедуры верификации выхода — начинать с неё.

Поделиться: Telegram

Частые вопросы

Cursor — это инструмент для кода. Причём тут математика и бизнес?

Cursor использовал ту же мультиагентную архитектуру, что и для написания кода. Математическая задача потребовала автономного планирования, генерации гипотез и проверки — это те же механики, что нужны для сложных аналитических задач в бизнесе.

Можно ли уже сейчас использовать агентные системы для реальных бизнес-задач?

Да, при двух условиях: чётко сформулированная задача на входе и эксперт для проверки результата на выходе. Без второго условия автономность агента превращается в источник красиво оформленных ошибок.

Насколько дорого обходится запуск агента на сложную задачу?

Публичных данных по стоимости конкретного прогона нет. Ориентир: 4 дня работы десятков агентов на базе frontier-моделей — это сотни долларов минимум. Считайте относительно стоимости альтернативы (часы эксперта × ставка).

Что такое First Proof challenge и почему задачи туда закрыты?

Набор из 10 математических задач от 11 ведущих математиков, включая лауреата Филдсовской премии. Задачи созданы месяц назад и намеренно не публикуются, чтобы они не попали в обучающие данные ИИ-моделей — это обеспечивает чистоту эксперимента.

Обсуждение

    Пока без комментариев. Будьте первым.

    Войдите, чтобы отправить комментарий

    Вы сможете комментировать статьи, сохранять материалы

    или войдите по email