Статистическая мощность: что это такое и как рассчитать в A/B-тестировании

Понимание статистической мощности, или «чувствительности» теста, является неотъемлемой частью планирования перед A/B-тестированием. Это поможет внедрить больше изменений на сайте для увеличения дохода.
Что такое статистическая мощность
Прежде чем перейти к компонентам статистической мощности, важно понимать, какие бывают ошибки и как их избежать.
Два типа ошибок
Проще говоря, тест показывает наличие разницы между вариантами, хотя на самом деле никакой разницы нет. Несоответствие получается из-за того, что тест выходит из-под контроля из-за ошибок или случайностей.
Если 5% — это слишком много, можно снизить вероятность ложноположительного результата, увеличив уровень доверия до 99% или даже выше. В этом случае вероятность ошибки I типа уменьшится с 5% до 1%. Но такое снижение вероятности несёт в себе определённые риски.
Увеличение уровня доверия повышает возможность ошибки II типа. Между ошибкой альфа и бета существует обратно пропорциональная взаимосвязь: снижается одна ошибка — повышается другая, и наоборот.
Сокращение уровня альфа-ошибок (например, с 5% до 1%) уменьшает статистическую мощность вашего теста. Критическая зона становится меньше, и чем она меньше, тем ниже вероятность отклонения нулевой гипотезы, и, следовательно, тем ниже и уровень мощности. Из этого следует, что если вам нужно больше мощности, можно, как вариант, увеличить риск альфа-ошибок (например, с 5% до 10%).
Вероятность совершения ошибки II типа, или бета-ошибки (β), обратно пропорциональна статистической мощности (1 - β). Если риск совершения ошибки II типа (β) составляет 20%, уровень мощности будет 80% (1,0 - 0,2 = 0,8). Можно снизить риск ложноотрицательного результата до 5-10%, и тогда уровень мощности станет 90-95%.
Выбранный уровень мощности контролирует ошибки II типа: чем выше уровень мощности, тем ниже вероятность совершения ошибки II типа. Поскольку альфа- и бета-ошибки обратно пропорциональны, когда вы проводите тесты с крайне низкими значениями альфа-ошибок (например, 0,001%), это сильно увеличит риск ошибки II типа.
Статистическая мощность имеет обратную связь с ошибками типа II. Благодаря ей можно контролировать вероятные ложноотрицательные результаты. Вы стремитесь снизить риск ошибок типа I до приемлемого уровня, сохраняя значительную мощность, чтобы выявить улучшения.
Какие переменные влияют на этот баланс, когда речь идёт о статистической мощности? Давайте рассмотрим.
Переменные, которые влияют на статистическую мощность
Рассматривая каждую переменную, которая влияет на статистическую мощность, помните: основная цель — контролировать степень ошибок. Есть четыре фактора, которые можно регулировать:
- Размер выборки.
- Минимальный обнаружимый эффект (MDE).
- Уровень значимости (α).
- Желаемый уровень мощности (подразумеваемый уровень ошибки II типа).
1. Размер выборки
Рассчитывайте получить статистически значимый результат в разумный период времени — не меньше одной недели или одного бизнес-цикла. Чаще всего рекомендуют проводить тестирование от 2 до 4 недель. Если делать его дольше, у вас могут появиться проблемы, связанные с «загрязнением» выборки и удалением файлов cookie.
Следует установить минимальный размер выборки и заранее задать временные рамки. Тогда вы избежите распространённой ошибки: провести сплит-тест «вслепую» и завершить его до получения статистически значимой разницы.
2. Минимальный обнаружимый эффект (MDE)
Небольшие различия сложно обнаружить, и для этого требуется более крупная выборка. Значимый эффект можно выявить с меньшими размерами. Тем не менее, эти «улучшения» на основе небольших выборок могут оказаться ненадёжными.
Дело в том, что не существует фиксированного размера выборки, поэтому номинальный уровень и вилка значений, которым можно доверять, являются ненадёжными.
Если бы действовало какое-нибудь правило, где надо остановиться, или существовала чёткая вилка размеров выборки, 500%-ное улучшение на основе очень маленькой выборки, вероятно, сопровождалось бы уровнем доверия в 95% из вероятности +5% до +995%.
3. Уровень значимости
Результат теста считается статистически значимым, если предположить, что нулевая гипотеза неверна.
Это определение можно упростить до более простого пояснения: если сплит-тесту для двух лендингов можно на 95% доверять в пользу одного варианта, есть всего 5%-ная вероятность, что наблюдаемое улучшение — результат случайности, или 95%-ная вероятность, что разница происходит не из-за случайности.
5% — это общепринятый начальный уровень значимости в онлайн-тесте, и, как уже упоминалось ранее, такова же и вероятность совершения ошибки I типа. Альфа в 5% значит, что вы допускаете 5%-ную вероятность ошибочно отказаться от нулевой гипотезы.
Если вы снижаете уровень альфа с 5% до 1%, вы в то же время увеличиваете вероятность совершения ошибки II типа при прочих равных. А увеличение риска совершить ошибку II типа снижает эффективность тестирования.
4. Желаемый уровень мощности
При 80%-ной мощности есть 20%-ная вероятность не обнаружить реальную разницу. Если 20% для вас слишком большой риск, можно снизить эту вероятность до 10%, 5% или даже 1%, и это увеличит статистическую мощность до 90%, 95% и 99% соответственно.
Так какая же мощность вам действительно нужна? Общепринятым уровнем приемлемого риска ложноотрицательных результатов в оптимизации конверсии считается 20% с соответствующим уровнем мощности в 80%.
Нет какого-либо жёсткого установленного стандарта в 80% мощности, но это разумный баланс между риском альфа- и бета-ошибок.
- какой риск для вас приемлемый, когда вы реально можете упустить качественное улучшение;
- какой минимальный объём выборки, необходимый для достижения желаемой мощности каждого варианта.
Как рассчитать статистическую мощность для тестирования
Можно использовать калькулятор A/B тестов. Следует ввести значения и определить, какой объём выборки нужен для достаточной мощности теста. Если три вводные известны, вычисляем четвёртую.
Например, вы определили, что необходим объём выборки в 681 клиента на каждый вариант. Расчёт выполнили на основе вводных: мощность теста 80% и альфа 5% (95% статистической значимости). Вы знали, что уровень конверсии в контрольной группе составляет 14%, и ожидали, что вариант будет иметь показатель 19%.
Точно так же, если знать объём выборки для каждого варианта, альфу и желаемый уровень мощности (например, 80%), можно найти минимальный размер эффекта MDE, необходимый для достижения этой мощности, в данном случае — 19%.
Что делать, если увеличить объём выборки невозможно
Может так случиться, что вам потребуется больше мощности, но увеличить объём выборки не получится: например, сегмент внутри проводимого теста слишком маленький, или посещаемость страницы слишком низкая.
Например, вы вводите свои параметры в калькулятор A/B-тестирования, и он требует объём выборки более 8 000.
Если у вас нет возможности достичь этого минимума, или это займет долгие месяцы, как вариант можно увеличить MDE. В этом примере увеличение MDE с 10% до 25% снижает объём выборки до 1 356 для каждого варианта.
Но часто ли действительно получается достичь MDE в 25%? И насколько снизится качество? В таком случае наилучший выход — снизить уровень уверенности до 90% при условии, что вы готовы к 10%-ному риску ошибки I типа.
С чего начать? Аналитики сначала привязываются к размеру выборки (тест должен быть завершен в течение N количества недель) и потом произвольно выкручивают остальные значения, пока результат их не устроит.
- вдумчивое планирование, чтобы определиться с тем, какие именно значения отрегулировать;
- обращение в выгоду измерений потенциальных колебаний ROI для любого изменения тестируемых переменных.
Заключение
Статистическая мощность помогает отслеживать ошибки, подтверждает результаты теста и существенно увеличивает вероятность обнаружения практически значимых факторов эффективности.
Применяйте следующие рекомендации:
- Проводите тесты в течение 2-4 недель.
- Используйте калькулятор тестирования, чтобы рассчитать правильную мощность тестов.
- Соблюдайте минимальные требования по объёму выборки.
- Если нужно, тестируйте более значительные изменения и наблюдайте за их эффективностью.
- Используйте статистическую значимость только после выполнения минимальных требований по объёму выборки.
- Планируйте достаточную мощность для всех вариантов и в дальнейшем проводите тест сегментов.
Вам может быть интересно:
О том, что такое аудит данных, как его правильно провести и в чём важность для бизнеса.
Читать далееВ статье рассказываем, зачем страховым компаниям нужна автоматизация маркетинга, и делимся пятью рабочими стратегиями автоматизации в этой сфере.
Читать далееО том, как PREMIER настроил броадкасты и автоматизировал цепочки коммуникаций.
Читать далее