Anthropic обновила инструмент skill-creator в Claude: добавила автотесты, бенчмарки и A/B-сравнения прямо в процесс создания навыков. Кода писать для этого больше требуется. Для маркетинга и продукта это означает, что любой аналитик или операционщик теперь может создавать и проверять автоматизации с инженерной точностью.
Что случилось
Anthropic перенесла в skill-creator логику, привычную для разработки: создаёшь навык — сразу пишешь тестовые сценарии и описываешь ожидаемый результат. Система запускает их параллельно — с навыком и без него. Независимый агент оценивает результаты вслепую и выдаёт, даёт ли навык реальный прирост.
По внутренним данным компании: точность PDF-навыка выросла с 6/8 до 7/8 тестовых случаев, Excel-навыка — с 6/8 до 8/8. На PDF-сценарии с незаполняемыми формами из многостраничных документов успешность поднялась с 40% до 100% при том же времени выполнения. Отдельный бенчмарк-режим показывает по каждому прогону: процент успеха, время, расход токенов.
Почему это важно для маркетинга и денег
- Скорость итерации без программистов — маркетолог или аналитик сам проверяет качество автоматизации до запуска, не ждёт очереди в разработку. Это напрямую сокращает CAC (стоимость привлечения) на автоматизированных сценариях за счёт меньшего числа провальных запусков.
- Измеримое качество до LTV (пожизненной ценности клиента) — evals-тесты хранятся локально и подключаются к CI-системам (системам непрерывной интеграции). Это значит, что деградацию качества навыка можно поймать до того, как она скажется на удержании клиентов.
- Оптимизация триггерной активации — система теперь сама анализирует описания навыков и предлагает правки. Результат: на 5 из 6 публичных навыков триггеринг улучшился. Меньше ложных срабатываний — меньше мусорных ответов в клиентских сценариях.
Где обычно ломается система
- Тесты пишут под идеальный сценарий: симптом — навык проходит все evals, но падает на реальных данных → причина — тестовые промпты слишком чистые → последствие — ложное ощущение готовности к запуску.
- Навык живёт дольше, чем нужен: симптом — дублирование поведения модели и навыка → причина — никто не мониторит, встроила ли базовая модель функцию в своё поведение → последствие — лишние токены и замедление работы.
- Описания навыков пишутся наугад: симптом — высокий процент пропусков при активации → причина — системный промпт не отражает реальные формулировки пользователей → последствие — навык просто не включается в нужный момент.
Как применить в среднем бизнесе за 30 дней
- Аудит текущих Claude-автоматизаций — выписать 5–10 сценариев, где Claude используется в процессах. Зафиксировать, как сейчас измеряется качество (или что оно вообще не измеряется).
- Написать первые evals — для каждого сценария описать 6–10 тестовых промптов и ожидаемый результат. Запустить A/B-сравнение: с навыком и без.
- Исправить описания триггеров — использовать инструмент анализа описаний, чтобы снизить число случаев, когда навык не включается там, где должен.
- Подключить бенчмарк к регулярной отчётности — раз в две недели смотреть на расход токенов и процент успешных прогонов. Это дешевле, чем узнавать о деградации от клиентов.
Риски и ограничения
- Качество evals зависит от качества тестов: плохие тестовые сценарии дадут ложнопозитивные результаты. Снижается регулярным пересмотром тест-кейсов на основе реальных провалов в продакшене.
- Инструмент работает внутри экосистемы Anthropic: если бизнес использует несколько моделей или платформ, evals придётся дублировать вручную в других средах.
- Оценка агентом-сравниватором субъективна в размытых задачах: для творческих или консультационных сценариев критерии "правильного ответа" трудно формализовать — результаты тестов будут ориентировочными.
Вывод
Anthropic сдвинула планку: создание и проверка Claude-навыков стали инженерно обоснованными без написания кода. Для команд, которые уже автоматизируют процессы на Claude — это повод пересмотреть все работающие навыки и добавить к ним измеримые критерии качества. Для тех, кто ещё присматривается — входной порог стал ощутимо ниже.
Пока без комментариев. Будьте первым.