Разбор
Статистическая значимость в A/B-тестах: объясняем за 5 минут без формул
70% маркетологов останавливают A/B-тест раньше времени и внедряют победителя, который на самом деле не победил. Объясняем p-value, confidence interval и MDE простым языком -- без единой формулы.
Ты запустил A/B-тест лендинга. Через 2 дня вариант B показывает +18% к конверсии. Ты радостно внедряешь его. Через месяц конверсия вернулась к прежним числам. Что произошло?
Антагонист этой истории — нетерпение. Оно заставляет маркетологов заглядывать в результаты теста каждый час и принимать решения на случайном шуме, а не на реальной разнице. По данным Evan Miller, это самая частая ошибка в CRO.
Перевёртыш
Старое убеждение: «Если вариант B лучше в течение 3 дней — значит, он реально лучше»
Новая реальность: На малых выборках случайное отклонение в 20—30% — норма. Это не сигнал, а шум. Только статистическая значимость отделяет одно от другого.
Что ты получишь: 4 ключевых понятия статистики A/B-тестов, объяснённых через аналогии — без единой формулы. Плюс квиз для проверки понимания и чеклист правильного тестирования.
Понятие 1: P-value — вероятность быть обманутым случайностью
По данным Optimizely, p-value — это вероятность увидеть такую же (или большую) разницу между вариантами, если на самом деле разницы нет.
Аналогия: монетка и баскетболист
Ты подбрасываешь монетку 10 раз. Выпало 7 орлов. Монетка нечестная? Скорее всего нет — при 10 бросках 7:3 случается в 17% случаев даже с честной монеткой. P-value = 0.17.
Теперь 100 бросков, 70 орлов. Вероятность такого с честной монеткой — меньше 0.0001%. P-value < 0.001. Монетка точно нечестная.
В A/B-тестировании то же самое:
- Вариант B показывает +15% CR на 100 визитах → p-value = 0.35 → это шум
- Вариант B показывает +15% CR на 10 000 визитах → p-value = 0.003 → это реальная разница
Порог: 0.05
Индустриальный стандарт — p-value < 0.05. Это значит: «с вероятностью 95% разница реальна, а не случайна». Некоторые команды используют 0.01 (99% уверенности) для критичных решений — например, изменения цены.
Сделай за 5 минут
Открой свой последний завершённый A/B-тест. Найди p-value (или confidence level). Если его нет — инструмент не показывает статзначимость, и ты принимаешь решения вслепую. Время менять инструмент. Наш обзор платформ A/B-тестирования поможет выбрать.
Понятие 2: Доверительный интервал — диапазон правды
Google Analytics показывает результат A/B-теста не как точку, а как диапазон. Это доверительный интервал (CI).
Аналогия: прогноз погоды
Метеоролог говорит: «Завтра +15°C». Это точечная оценка. Реальность: «+15°C с доверительным интервалом от +12 до +18». Чем шире интервал — тем меньше мы уверены.
В A/B-тесте:
- «Вариант B лучше на 12%, CI: [+3%, +21%]» — хорошо, весь интервал выше нуля
- «Вариант B лучше на 12%, CI: [-5%, +29%]» — плохо, интервал включает ноль (разницы может не быть)
Правило: если CI пересекает ноль — результат не значим
Неважно, что точечная оценка +12%. Если нижняя граница CI отрицательная — ты не можешь утверждать, что B лучше A.
Понятие 3: Статистическая мощность — способность увидеть реальную разницу
По данным VWO, 80% — стандартная мощность A/B-теста. Это значит: если реальная разница существует, тест обнаружит её в 80% случаев.
Аналогия: детектор металла
Металлоискатель с мощностью 80% найдёт 8 из 10 монет на пляже. Пропустит 2. Если тебе критично не пропустить ни одной — нужен детектор с мощностью 95%, но он стоит дороже (= больше трафика, дольше тест).
Что снижает мощность:
- Маленькая выборка (мало трафика)
- Маленькая разница между вариантами (MDE)
- Высокая вариативность данных
Практический вывод: Если твой сайт получает 500 визитов в день и текущий CR = 2%, ты физически не можешь обнаружить разницу меньше 30% за разумный срок. Не тестируй цвет кнопки — тестируй целые секции страницы или предложение.
Понятие 4: MDE — минимальный обнаружимый эффект
MDE (Minimum Detectable Effect) — это минимальная разница, которую твой тест способен зафиксировать.
Аналогия: весы
Кухонные весы точны до 1 грамма. Если разница между двумя яблоками 0.3 грамма — весы покажут «одинаково». Нужны лабораторные весы (= больше трафика), чтобы увидеть такую маленькую разницу.
| MDE | Что это значит | Сколько нужно трафика (при CR 3%) |
|---|---|---|
| 30% | CR вырастет с 3% до 3.9%+ | ~3 000 на вариант |
| 15% | CR вырастет с 3% до 3.45%+ | ~12 000 на вариант |
| 5% | CR вырастет с 3% до 3.15%+ | ~100 000 на вариант |
Практический вывод: Перед запуском теста реши, какая разница для тебя значима с точки зрения бизнеса. Если +5% к CR не окупает затраты на изменение — ставь MDE 15—20% и экономь время. Посчитай экономический эффект от роста конверсии в калькуляторе CR или калькуляторе ROI.
Сделай за 5 минут
Зайди на Optimizely Sample Size Calculator. Введи свой текущий CR и желаемый MDE. Результат — минимальное количество визитов на вариант. Раздели на свой дневной трафик — получишь длительность теста в днях.
5 смертных грехов A/B-тестирования
По данным HBR, эти ошибки стоят компаниям миллионы долларов ежегодно.
-
Подглядывание (peeking): Заглядываешь в результаты каждый день и останавливаешь тест, как только видишь разницу. При daily peeking вероятность ложноположительного результата вырастает с 5% до 30%.
-
Малая выборка: 200 конверсий на вариант — это минимум для обнаружения разницы в 20%. Для 5% разницы нужно 6 000+.
-
Отсутствие гипотезы: «Давайте протестируем зелёную кнопку» — это не гипотеза. «Зелёная кнопка на фоне белого сайта увеличит контрастность CTA и повысит CR на 10%» — это гипотеза.
-
Игнорирование сезонности: Тест с понедельника по среду vs тест, включающий выходные — это два разных теста с разными аудиториями.
-
Множественные сравнения: Тестируешь 5 вариантов одновременно? Вероятность ложноположительного результата — не 5%, а 23%. Нужна коррекция Бонферрони (p < 0.05/5 = 0.01).
Квиз: проверь понимание статзначимости
A/B-тест лендинга. Вариант B: +12% CR, p-value = 0.08. Что делать?
Тест показывает: «Вариант B лучше на 8%, доверительный интервал [-2%, +18%], p-value = 0.12». Какое утверждение верно?
Сайт получает 300 визитов в день, CR = 2%. Ты хочешь обнаружить разницу в 10%. Сколько дней займёт тест?
Ты одновременно тестируешь 4 варианта лендинга (A, B, C, D). Один из них показывает p-value = 0.04. Это статистически значимо?
Чеклист правильного A/B-теста
Перед запуском теста
Для расчёта бизнес-эффекта от оптимизации конверсии используй калькулятор ROAS и калькулятор CAC.
Подробнее о разнице между email и сайтовым A/B-тестированием — в статье Email A/B vs A/B на сайте.
Если работаешь с инструментами статистики — смотри наш обзор топ-10 инструментов для A/B-тестирования и статистики.
Свежие кейсы и разборы — в новостях.
Что дальше?
В Telegram-канале @lexamarketolog разбираем реальные A/B-тесты с p-value, доверительными интервалами и выводами — без академической зауми. Подпишись.
Также: видео на MAX · разборы в ВК · сторис @loading_express
Источники
Читайте также
- Email A/B-тестирование vs A/B на сайте: 5 принципиальных различий, о которых молчат ·
- Тёмная или светлая тема: что выбирают 82% пользователей и почему это ловушка для конверсии ·
- Топ-10 платформ для A/B-тестирования сайтов и лендингов 2026 ·
- Скорость сайтов CRM 2026: WireCRM опережает amoCRM в 1.7 раза, A2B -- аутсайдер ·
- B2B email outreach 2026: 7 шаблонов которые открывают двери ·
- B2B email outreach 2026: 7 шаблонов которые открывают двери ·
Пока без комментариев. Будьте первым.