Важное
Anthropic научила Claude проверять собственные навыки до запуска — и это меняет подход к автоматизации
Anthropic добавила автотесты и A/B-сравнения в skill-creator. Разбираем, как это меняет автоматизацию процессов и что проверить маркетологам прямо сейчас.
Раньше 'работает ли это вообще' выяснялось в продакшене. Теперь — до него. Звучит банально, пока не вспоминаешь, сколько времени команды теряли на обратное.
Anthropic обновила инструмент skill-creator в Claude: добавила автотесты, бенчмарки и A/B-сравнения прямо в процесс создания навыков. Кода писать для этого больше требуется. Для маркетинга и продукта это означает, что любой аналитик или операционщик теперь может создавать и проверять автоматизации с инженерной точностью.
Что случилось
Anthropic перенесла в skill-creator логику, привычную для разработки: создаёшь навык — сразу пишешь тестовые сценарии и описываешь ожидаемый результат. Система запускает их параллельно — с навыком и без него. Независимый агент оценивает результаты вслепую и выдаёт, даёт ли навык реальный прирост.
По внутренним данным компании: точность PDF-навыка выросла с 6/8 до 7/8 тестовых случаев, Excel-навыка — с 6/8 до 8/8. На PDF-сценарии с незаполняемыми формами из многостраничных документов успешность поднялась с 40% до 100% при том же времени выполнения. Отдельный бенчмарк-режим показывает по каждому прогону: процент успеха, время, расход токенов.
Почему это важно для маркетинга и денег
- Скорость итерации без программистов — маркетолог или аналитик сам проверяет качество автоматизации до запуска, не ждёт очереди в разработку. Это напрямую сокращает CAC (стоимость привлечения) на автоматизированных сценариях за счёт меньшего числа провальных запусков.
- Измеримое качество до LTV (пожизненной ценности клиента) — evals-тесты хранятся локально и подключаются к CI-системам (системам непрерывной интеграции). Это значит, что деградацию качества навыка можно поймать до того, как она скажется на удержании клиентов.
- Оптимизация триггерной активации — система теперь сама анализирует описания навыков и предлагает правки. Результат: на 5 из 6 публичных навыков триггеринг улучшился. Меньше ложных срабатываний — меньше мусорных ответов в клиентских сценариях.
Где обычно ломается система
- Тесты пишут под идеальный сценарий: симптом — навык проходит все evals, но падает на реальных данных → причина — тестовые промпты слишком чистые → последствие — ложное ощущение готовности к запуску.
- Навык живёт дольше, чем нужен: симптом — дублирование поведения модели и навыка → причина — никто не мониторит, встроила ли базовая модель функцию в своё поведение → последствие — лишние токены и замедление работы.
- Описания навыков пишутся наугад: симптом — высокий процент пропусков при активации → причина — системный промпт не отражает реальные формулировки пользователей → последствие — навык просто не включается в нужный момент.
Как применить в среднем бизнесе за 30 дней
- Аудит текущих Claude-автоматизаций — выписать 5–10 сценариев, где Claude используется в процессах. Зафиксировать, как сейчас измеряется качество (или что оно вообще не измеряется).
- Написать первые evals — для каждого сценария описать 6–10 тестовых промптов и ожидаемый результат. Запустить A/B-сравнение: с навыком и без.
- Исправить описания триггеров — использовать инструмент анализа описаний, чтобы снизить число случаев, когда навык не включается там, где должен.
- Подключить бенчмарк к регулярной отчётности — раз в две недели смотреть на расход токенов и процент успешных прогонов. Это дешевле, чем узнавать о деградации от клиентов.
Риски и ограничения
- Качество evals зависит от качества тестов: плохие тестовые сценарии дадут ложнопозитивные результаты. Снижается регулярным пересмотром тест-кейсов на основе реальных провалов в продакшене.
- Инструмент работает внутри экосистемы Anthropic: если бизнес использует несколько моделей или платформ, evals придётся дублировать вручную в других средах.
- Оценка агентом-сравниватором субъективна в размытых задачах: для творческих или консультационных сценариев критерии "правильного ответа" трудно формализовать — результаты тестов будут ориентировочными.
Вывод
Anthropic сдвинула планку: создание и проверка Claude-навыков стали инженерно обоснованными без написания кода. Для команд, которые уже автоматизируют процессы на Claude — это повод пересмотреть все работающие навыки и добавить к ним измеримые критерии качества. Для тех, кто ещё присматривается — входной порог стал ощутимо ниже.
Частые вопросы
Что такое evals в Claude skill-creator?
Evals — это автоматические тесты качества навыка. Создатель навыка описывает тестовые промпты и ожидаемый результат, система запускает их с навыком и без него, независимый агент сравнивает результаты вслепую. По внутренним данным Anthropic, такой подход поднял точность Excel-навыка до 8/8 тестовых случаев.
Нужно ли уметь программировать, чтобы пользоваться обновлённым skill-creator?
Нет. Anthropic специально построила обновление так, чтобы создание, тестирование и доработка навыков были доступны без написания кода. Это задача для аналитика, маркетолога или операционщика.
Как skill-creator помогает снизить число ошибок при активации навыка?
Система анализирует короткое текстовое описание навыка в системном промпте и сопоставляет его с реальными тестовыми промптами. Затем предлагает правки формулировок. По данным Anthropic, триггерная активация улучшилась на 5 из 6 проверенных публичных навыков.
Можно ли подключить результаты evals к внутренним системам компании?
Да. Результаты тестов хранятся локально и интегрируются в CI-системы (системы непрерывной интеграции). Это позволяет отслеживать деградацию качества навыков на регулярной основе, а не вручную.
Пока без комментариев. Будьте первым.