Статистическая значимость A/B-тестов за 5 минут без формул

Ты запустил A/B-тест лендинга. Через 2 дня вариант B показывает +18% к конверсии. Ты радостно внедряешь его. Через месяц конверсия вернулась к прежним числам. Что произошло?

Антагонист этой истории — нетерпение. Оно заставляет маркетологов заглядывать в результаты теста каждый час и принимать решения на случайном шуме, а не на реальной разнице. По данным Evan Miller, это самая частая ошибка в CRO.

70%маркетологов останавливают A/B-тесты до достижения статистической значимостиCXL Institute, опрос 2024

Перевёртыш

~~Старое убеждение:~~ «Если вариант B лучше в течение 3 дней — значит, он реально лучше»
Новая реальность: На малых выборках случайное отклонение в 20—30% — норма. Это не сигнал, а шум. Только статистическая значимость отделяет одно от другого.

Что ты получишь: 4 ключевых понятия статистики A/B-тестов, объяснённых через аналогии — без единой формулы. Плюс квиз для проверки понимания и чеклист правильного тестирования.

Понятие 1: P-value — вероятность быть обманутым случайностью

По данным Optimizely, p-value — это вероятность увидеть такую же (или большую) разницу между вариантами, если на самом деле разницы нет.

Аналогия: монетка и баскетболист

Ты подбрасываешь монетку 10 раз. Выпало 7 орлов. Монетка нечестная? Скорее всего нет — при 10 бросках 7:3 случается в 17% случаев даже с честной монеткой. P-value = 0.17.

Теперь 100 бросков, 70 орлов. Вероятность такого с честной монеткой — меньше 0.0001%. P-value < 0.001. Монетка точно нечестная.

В A/B-тестировании то же самое:

Вариант B показывает +15% CR на 100 визитах → p-value = 0.35 → это шум
Вариант B показывает +15% CR на 10 000 визитах → p-value = 0.003 → это реальная разница

Порог: 0.05

Индустриальный стандарт — p-value < 0.05. Это значит: «с вероятностью 95% разница реальна, а не случайна». Некоторые команды используют 0.01 (99% уверенности) для критичных решений — например, изменения цены.

Сделай за 5 минут

Открой свой последний завершённый A/B-тест. Найди p-value (или confidence level). Если его нет — инструмент не показывает статзначимость, и ты принимаешь решения вслепую. Время менять инструмент. Наш обзор платформ A/B-тестирования поможет выбрать.

Понятие 2: Доверительный интервал — диапазон правды

Google Analytics показывает результат A/B-теста не как точку, а как диапазон. Это доверительный интервал (CI).

Аналогия: прогноз погоды

Метеоролог говорит: «Завтра +15°C». Это точечная оценка. Реальность: «+15°C с доверительным интервалом от +12 до +18». Чем шире интервал — тем меньше мы уверены.

В A/B-тесте:

«Вариант B лучше на 12%, CI: [+3%, +21%]» — хорошо, весь интервал выше нуля
«Вариант B лучше на 12%, CI: [-5%, +29%]» — плохо, интервал включает ноль (разницы может не быть)

Правило: если CI пересекает ноль — результат не значим

Неважно, что точечная оценка +12%. Если нижняя граница CI отрицательная — ты не можешь утверждать, что B лучше A.

Понятие 3: Статистическая мощность — способность увидеть реальную разницу

По данным VWO, 80% — стандартная мощность A/B-теста. Это значит: если реальная разница существует, тест обнаружит её в 80% случаев.

Аналогия: детектор металла

Металлоискатель с мощностью 80% найдёт 8 из 10 монет на пляже. Пропустит 2. Если тебе критично не пропустить ни одной — нужен детектор с мощностью 95%, но он стоит дороже (= больше трафика, дольше тест).

Что снижает мощность:

Маленькая выборка (мало трафика)
Маленькая разница между вариантами (MDE)
Высокая вариативность данных

Практический вывод: Если твой сайт получает 500 визитов в день и текущий CR = 2%, ты физически не можешь обнаружить разницу меньше 30% за разумный срок. Не тестируй цвет кнопки — тестируй целые секции страницы или предложение.

Понятие 4: MDE — минимальный обнаружимый эффект

MDE (Minimum Detectable Effect) — это минимальная разница, которую твой тест способен зафиксировать.

Аналогия: весы

Кухонные весы точны до 1 грамма. Если разница между двумя яблоками 0.3 грамма — весы покажут «одинаково». Нужны лабораторные весы (= больше трафика), чтобы увидеть такую маленькую разницу.

MDE	Что это значит	Сколько нужно трафика (при CR 3%)
30%	CR вырастет с 3% до 3.9%+	~3 000 на вариант
15%	CR вырастет с 3% до 3.45%+	~12 000 на вариант
5%	CR вырастет с 3% до 3.15%+	~100 000 на вариант

Практический вывод: Перед запуском теста реши, какая разница для тебя значима с точки зрения бизнеса. Если +5% к CR не окупает затраты на изменение — ставь MDE 15—20% и экономь время. Посчитай экономический эффект от роста конверсии в калькуляторе CR или калькуляторе ROI.

Сделай за 5 минут

Зайди на Optimizely Sample Size Calculator. Введи свой текущий CR и желаемый MDE. Результат — минимальное количество визитов на вариант. Раздели на свой дневной трафик — получишь длительность теста в днях.

5 смертных грехов A/B-тестирования

По данным HBR, эти ошибки стоят компаниям миллионы долларов ежегодно.

Подглядывание (peeking): Заглядываешь в результаты каждый день и останавливаешь тест, как только видишь разницу. При daily peeking вероятность ложноположительного результата вырастает с 5% до 30%.
Малая выборка: 200 конверсий на вариант — это минимум для обнаружения разницы в 20%. Для 5% разницы нужно 6 000+.
Отсутствие гипотезы: «Давайте протестируем зелёную кнопку» — это не гипотеза. «Зелёная кнопка на фоне белого сайта увеличит контрастность CTA и повысит CR на 10%» — это гипотеза.
Игнорирование сезонности: Тест с понедельника по среду vs тест, включающий выходные — это два разных теста с разными аудиториями.
Множественные сравнения: Тестируешь 5 вариантов одновременно? Вероятность ложноположительного результата — не 5%, а 23%. Нужна коррекция Бонферрони (p < 0.05/5 = 0.01).

Квиз: проверь понимание статзначимости

A/B-тест лендинга. Вариант B: +12% CR, p-value = 0.08. Что делать?

Продолжать тест! P-value 0.08 значит: с вероятностью 8% эта разница — случайность. Это выше стандартного порога 0.05. Возможно, с большей выборкой p-value упадёт ниже 0.05 и результат станет значимым. Или наоборот — разница исчезнет. Не внедряй и не отбрасывай: жди данных.

Тест показывает: «Вариант B лучше на 8%, доверительный интервал [-2%, +18%], p-value = 0.12». Какое утверждение верно?

B может быть как лучше, так и хуже! Доверительный интервал [-2%, +18%] включает ноль. Это значит: реальная разница может быть от -2% (B хуже) до +18% (B сильно лучше). Пока интервал пересекает ноль — мы не знаем ответа. P-value 0.12 подтверждает: недостаточно данных.

Сайт получает 300 визитов в день, CR = 2%. Ты хочешь обнаружить разницу в 10%. Сколько дней займёт тест?

~200 дней! При CR 2% и MDE 10% нужно ~30 000 визитов на вариант (60 000 всего). При 300 визитах в день = 200 дней. Это нереалистично. Решения: увеличить трафик, увеличить MDE до 30% (нужно ~3 000 на вариант = 20 дней) или тестировать более радикальные изменения.

Ты одновременно тестируешь 4 варианта лендинга (A, B, C, D). Один из них показывает p-value = 0.04. Это статистически значимо?

Нужна коррекция! При 4 вариантах ты делаешь 3 сравнения (B vs A, C vs A, D vs A). Коррекция Бонферрони: порог = 0.05 / 3 = 0.017. Твой p-value 0.04 > 0.017, значит результат не значим. Без коррекции вероятность ложноположительного результата при 4 вариантах — ~14% вместо 5%.

Чеклист правильного A/B-теста

Перед запуском теста

Сформулировал гипотезу (что тестирую, почему, какой эффект ожидаю)

Определил первичную метрику (CR, revenue per visitor, open rate)

Рассчитал минимальную выборку через калькулятор

Определил MDE (какая разница важна для бизнеса)

Запланировал длительность минимум 2 полные недели

Установил порог значимости (p < 0.05 или строже)

Договорился с командой НЕ смотреть результаты до окончания

Проверил, что трекинг работает корректно (AA-тест)

Для расчёта бизнес-эффекта от оптимизации конверсии используй калькулятор ROAS и калькулятор CAC.

Подробнее о разнице между email и сайтовым A/B-тестированием — в статье Email A/B vs A/B на сайте.

Если работаешь с инструментами статистики — смотри наш обзор топ-10 инструментов для A/B-тестирования и статистики.

Свежие кейсы и разборы — в новостях.

Что дальше?

В Telegram-канале @lexamarketolog разбираем реальные A/B-тесты с p-value, доверительными интервалами и выводами — без академической зауми. Подпишись.

Также: видео на MAX · разборы в ВК · сторис @loading_express

Статистическая значимость в A/B-тестах: объясняем за 5 минут без формул