Anthropic выкатила инструмент Advisor в бете на Claude Platform. Механика: лёгкая модель ведёт задачу, тяжёлая подключается точечно как советник. Для бизнеса, который строит агентные пайплайны, это прямое влияние на CAC (стоимость привлечения клиента) через сервисную себестоимость и на маржу продукта.
Что произошло
Advisor — серверный инструмент внутри одного запроса. Sonnet или Haiku выполняют задачу от начала до конца. Opus подключается по инициативе исполнителя, получает выжимку контекста, возвращает план или корректировку, после чего исполнитель продолжает работу.
Opus в этой схеме: без доступа к инструментам, без прямого ответа пользователю. Токены советника тарифицируются отдельно — расход по уровням отслеживаем.
Заявленные результаты (по данным компании):
- SWE-bench Multilingual: Sonnet + Opus-advisor — +2,7% к качеству vs. Sonnet соло, стоимость ниже на 11,9%
- BrowseComp: Haiku + Opus-advisor — 41,2% vs. 19,7% у чистого Haiku; стоимость на 85% ниже Sonnet соло
Цифры выглядят убедительно. Но бенчмарки Anthropic — это бенчмарки Anthropic. Проверяй на своём боевом трафике.
- Влияние на юнит-экономику: CAC, LTV или маржу — Себестоимость одного агентного запроса падает. Если продукт тарифицирует пользователей по результату, а не по токенам — маржа растёт напрямую. Узкое место: непредсказуемость частоты вызовов Opus исполнителем.
- Влияние на воронку/трафик/конверсию — Команды, которые сейчас режут качество ради бюджета, получают аргумент вернуть Opus-логику в пайплайн. Это влияет на удержание пользователей там, где качество вывода — часть ценностного предложения.
- Влияние на операционку или команду — Ручная оркестрация "позови большую модель в сложном месте" частично автоматизируется. Это снижает инженерную нагрузку, но переносит контроль качества к самой модели — риск непрозрачных решений растёт.
Как использовать это в ближайшие 30 дней
- Замерь текущую себестоимость агентного запроса — возьми 3–5 типовых сценариев, посчитай среднее число токенов и долю Opus-вызовов; это твоя точка отсчёта для сравнения с Advisor.
- Запусти A/B на одном пайплайне с известным бенчмарком качества — сравни Sonnet-соло vs. Sonnet + Advisor по метрике успешности задачи и стоимости на задачу; срок — 2 недели, выборка — от 500 запросов.
- Отслеживай частоту Advisor-вызовов отдельно — Anthropic репортит токены советника в usage. Если Opus вызывается в >40% запросов, экономика схемы ухудшается; выставь алерт и пересмотри промпт исполнителя.
Вывод
Инструмент решает реальную задачу: качество близкое к Opus, цена близкая к Sonnet. Бенчмарки показательны, но требуют проверки на твоём трафике. Если строишь агентный продукт на Claude — тестировать обязательно. Если используешь другой стек — наблюдай: конкуренты получат аналог в течение квартала.
Пока без комментариев. Будьте первым.