Разбор

Статистическая значимость в A/B-тестах: объясняем за 5 минут без формул

70% маркетологов останавливают A/B-тест раньше времени и внедряют победителя, который на самом деле не победил. Объясняем p-value, confidence interval и MDE простым языком -- без единой формулы.

• 6 мин чтения

  • #A/B-тестирование
  • #конверсия
  • #аналитика
  • #статистика
  • #CRO

Ты запустил A/B-тест лендинга. Через 2 дня вариант B показывает +18% к конверсии. Ты радостно внедряешь его. Через месяц конверсия вернулась к прежним числам. Что произошло?

Антагонист этой истории — нетерпение. Оно заставляет маркетологов заглядывать в результаты теста каждый час и принимать решения на случайном шуме, а не на реальной разнице. По данным Evan Miller, это самая частая ошибка в CRO.

70%маркетологов останавливают A/B-тесты до достижения статистической значимостиCXL Institute, опрос 2024

Перевёртыш

Старое убеждение: «Если вариант B лучше в течение 3 дней — значит, он реально лучше»
Новая реальность: На малых выборках случайное отклонение в 20—30% — норма. Это не сигнал, а шум. Только статистическая значимость отделяет одно от другого.

Что ты получишь: 4 ключевых понятия статистики A/B-тестов, объяснённых через аналогии — без единой формулы. Плюс квиз для проверки понимания и чеклист правильного тестирования.


Понятие 1: P-value — вероятность быть обманутым случайностью

По данным Optimizely, p-value — это вероятность увидеть такую же (или большую) разницу между вариантами, если на самом деле разницы нет.

Аналогия: монетка и баскетболист

Ты подбрасываешь монетку 10 раз. Выпало 7 орлов. Монетка нечестная? Скорее всего нет — при 10 бросках 7:3 случается в 17% случаев даже с честной монеткой. P-value = 0.17.

Теперь 100 бросков, 70 орлов. Вероятность такого с честной монеткой — меньше 0.0001%. P-value < 0.001. Монетка точно нечестная.

В A/B-тестировании то же самое:

  • Вариант B показывает +15% CR на 100 визитах → p-value = 0.35 → это шум
  • Вариант B показывает +15% CR на 10 000 визитах → p-value = 0.003 → это реальная разница

Порог: 0.05

Индустриальный стандарт — p-value < 0.05. Это значит: «с вероятностью 95% разница реальна, а не случайна». Некоторые команды используют 0.01 (99% уверенности) для критичных решений — например, изменения цены.

Сделай за 5 минут

Открой свой последний завершённый A/B-тест. Найди p-value (или confidence level). Если его нет — инструмент не показывает статзначимость, и ты принимаешь решения вслепую. Время менять инструмент. Наш обзор платформ A/B-тестирования поможет выбрать.


Понятие 2: Доверительный интервал — диапазон правды

Google Analytics показывает результат A/B-теста не как точку, а как диапазон. Это доверительный интервал (CI).

Аналогия: прогноз погоды

Метеоролог говорит: «Завтра +15°C». Это точечная оценка. Реальность: «+15°C с доверительным интервалом от +12 до +18». Чем шире интервал — тем меньше мы уверены.

В A/B-тесте:

  • «Вариант B лучше на 12%, CI: [+3%, +21%]» — хорошо, весь интервал выше нуля
  • «Вариант B лучше на 12%, CI: [-5%, +29%]» — плохо, интервал включает ноль (разницы может не быть)

Правило: если CI пересекает ноль — результат не значим

Неважно, что точечная оценка +12%. Если нижняя граница CI отрицательная — ты не можешь утверждать, что B лучше A.


Понятие 3: Статистическая мощность — способность увидеть реальную разницу

По данным VWO, 80% — стандартная мощность A/B-теста. Это значит: если реальная разница существует, тест обнаружит её в 80% случаев.

Аналогия: детектор металла

Металлоискатель с мощностью 80% найдёт 8 из 10 монет на пляже. Пропустит 2. Если тебе критично не пропустить ни одной — нужен детектор с мощностью 95%, но он стоит дороже (= больше трафика, дольше тест).

Что снижает мощность:

  • Маленькая выборка (мало трафика)
  • Маленькая разница между вариантами (MDE)
  • Высокая вариативность данных

Практический вывод: Если твой сайт получает 500 визитов в день и текущий CR = 2%, ты физически не можешь обнаружить разницу меньше 30% за разумный срок. Не тестируй цвет кнопки — тестируй целые секции страницы или предложение.


Понятие 4: MDE — минимальный обнаружимый эффект

MDE (Minimum Detectable Effect) — это минимальная разница, которую твой тест способен зафиксировать.

Аналогия: весы

Кухонные весы точны до 1 грамма. Если разница между двумя яблоками 0.3 грамма — весы покажут «одинаково». Нужны лабораторные весы (= больше трафика), чтобы увидеть такую маленькую разницу.

MDEЧто это значитСколько нужно трафика (при CR 3%)
30%CR вырастет с 3% до 3.9%+~3 000 на вариант
15%CR вырастет с 3% до 3.45%+~12 000 на вариант
5%CR вырастет с 3% до 3.15%+~100 000 на вариант

Практический вывод: Перед запуском теста реши, какая разница для тебя значима с точки зрения бизнеса. Если +5% к CR не окупает затраты на изменение — ставь MDE 15—20% и экономь время. Посчитай экономический эффект от роста конверсии в калькуляторе CR или калькуляторе ROI.

Сделай за 5 минут

Зайди на Optimizely Sample Size Calculator. Введи свой текущий CR и желаемый MDE. Результат — минимальное количество визитов на вариант. Раздели на свой дневной трафик — получишь длительность теста в днях.


5 смертных грехов A/B-тестирования

По данным HBR, эти ошибки стоят компаниям миллионы долларов ежегодно.

  1. Подглядывание (peeking): Заглядываешь в результаты каждый день и останавливаешь тест, как только видишь разницу. При daily peeking вероятность ложноположительного результата вырастает с 5% до 30%.

  2. Малая выборка: 200 конверсий на вариант — это минимум для обнаружения разницы в 20%. Для 5% разницы нужно 6 000+.

  3. Отсутствие гипотезы: «Давайте протестируем зелёную кнопку» — это не гипотеза. «Зелёная кнопка на фоне белого сайта увеличит контрастность CTA и повысит CR на 10%» — это гипотеза.

  4. Игнорирование сезонности: Тест с понедельника по среду vs тест, включающий выходные — это два разных теста с разными аудиториями.

  5. Множественные сравнения: Тестируешь 5 вариантов одновременно? Вероятность ложноположительного результата — не 5%, а 23%. Нужна коррекция Бонферрони (p < 0.05/5 = 0.01).


Квиз: проверь понимание статзначимости

A/B-тест лендинга. Вариант B: +12% CR, p-value = 0.08. Что делать?

Тест показывает: «Вариант B лучше на 8%, доверительный интервал [-2%, +18%], p-value = 0.12». Какое утверждение верно?

Сайт получает 300 визитов в день, CR = 2%. Ты хочешь обнаружить разницу в 10%. Сколько дней займёт тест?

Ты одновременно тестируешь 4 варианта лендинга (A, B, C, D). Один из них показывает p-value = 0.04. Это статистически значимо?


Чеклист правильного A/B-теста

Перед запуском теста

Для расчёта бизнес-эффекта от оптимизации конверсии используй калькулятор ROAS и калькулятор CAC.

Подробнее о разнице между email и сайтовым A/B-тестированием — в статье Email A/B vs A/B на сайте.

Если работаешь с инструментами статистики — смотри наш обзор топ-10 инструментов для A/B-тестирования и статистики.

Свежие кейсы и разборы — в новостях.


Что дальше?

В Telegram-канале @lexamarketolog разбираем реальные A/B-тесты с p-value, доверительными интервалами и выводами — без академической зауми. Подпишись.

Также: видео на MAX · разборы в ВК · сторис @loading_express

Источники

Обсуждение

    Пока без комментариев. Будьте первым.

    Войдите, чтобы отправить комментарий

    Вы сможете комментировать статьи, сохранять материалы

    или войдите по email

    Бесплатная диагностика · 30 минут · без обязательств

    Маркетинг работает, но продажи не растут?

    Отвечу на 3–5 вопросов о вашем бизнесе — и мы вместе разберём, где именно теряются клиенты и что с этим делать.

    Без продаж. Без навязчивых звонков.