Статистическая мощность: что это такое и как рассчитать в A/B-тестировании
Понимание статистической мощности, или «чувствительности» теста, является неотъемлемой частью планирования перед A/B-тестированием. Это поможет внедрить больше изменений на сайте для увеличения дохода.
Что такое статистическая мощность
Статистическая мощность — вероятность обнаружения важных результатов, если определённый эффект действительно существует. Это позволяет выявить различия между вариантами тестирования, когда они реально есть.
Прежде чем перейти к компонентам статистической мощности, важно понимать, какие бывают ошибки и как их избежать.
Два типа ошибок
Ошибки I типа
Ошибка I типа — это ложноположительный результат: он отвергает нулевую гипотезу, которая на самом деле верна.
Нулевая гипотеза — это утверждение, что какой-либо разницы или эффекта между двумя событиями или феноменами не существует.
Проще говоря, тест показывает наличие разницы между вариантами, хотя на самом деле никакой разницы нет. Несоответствие получается из-за того, что тест выходит из-под контроля из-за ошибок или случайностей.
Вероятность ошибки I типа, которая обозначается греческой буквой альфа (α), относится к уровню, который уже является значимым для A/B-теста. Если у теста 95% уровень доверия, это значит, что оставшиеся 5% — это вероятность ошибки I типа (1,0 - 0,95 = 0,05).
Если 5% — это слишком много, можно снизить вероятность ложноположительного результата, увеличив уровень доверия до 99% или даже выше. В этом случае вероятность ошибки I типа уменьшится с 5% до 1%. Но такое снижение вероятности несёт в себе определённые риски.
Увеличение уровня доверия повышает возможность ошибки II типа. Между ошибкой альфа и бета существует обратно пропорциональная взаимосвязь: снижается одна ошибка — повышается другая, и наоборот.
Сокращение уровня альфа-ошибок (например, с 5% до 1%) уменьшает статистическую мощность вашего теста. Критическая зона становится меньше, и чем она меньше, тем ниже вероятность отклонения нулевой гипотезы, и, следовательно, тем ниже и уровень мощности. Из этого следует, что если вам нужно больше мощности, можно, как вариант, увеличить риск альфа-ошибок (например, с 5% до 10%).
Чем меньше критическая зона, тем ниже уровень статистической мощности
Ошибки II типа
Ошибки II типа — это ложноотрицательный результат: он не отклоняет действительно ложную нулевую гипотезу. Иначе говоря, тест не видит существенного улучшения в одном из вариантов, хотя на самом деле это улучшение есть.
Вероятность совершения ошибки II типа, или бета-ошибки (β), обратно пропорциональна статистической мощности (1 - β). Если риск совершения ошибки II типа (β) составляет 20%, уровень мощности будет 80% (1,0 - 0,2 = 0,8). Можно снизить риск ложноотрицательного результата до 5-10%, и тогда уровень мощности станет 90-95%.
Выбранный уровень мощности контролирует ошибки II типа: чем выше уровень мощности, тем ниже вероятность совершения ошибки II типа. Поскольку альфа- и бета-ошибки обратно пропорциональны, когда вы проводите тесты с крайне низкими значениями альфа-ошибок (например, 0,001%), это сильно увеличит риск ошибки II типа.
Статистическая мощность имеет обратную связь с ошибками типа II. Благодаря ей можно контролировать вероятные ложноотрицательные результаты. Вы стремитесь снизить риск ошибок типа I до приемлемого уровня, сохраняя значительную мощность, чтобы выявить улучшения.
Найти нужный баланс — это целая наука. Если один из ваших вариантов выигрышнее, это реально обнаружить с помощью правильно организованного теста. А если мощность тестирования недостаточная, вы рискуете отказаться от хорошего варианта по ошибке.
Какие переменные влияют на этот баланс, когда речь идёт о статистической мощности? Давайте рассмотрим.
Переменные, которые влияют на статистическую мощность
Рассматривая каждую переменную, которая влияет на статистическую мощность, помните: основная цель — контролировать степень ошибок. Есть четыре фактора, которые можно регулировать:
- Размер выборки.
- Минимальный обнаружимый эффект (MDE).
- Уровень значимости (α).
- Желаемый уровень мощности (подразумеваемый уровень ошибки II типа).
1. Размер выборки
Выборка должна быть достаточно большой, только тогда вы проведёте качественный сплит-тест. Важно рассчитать её размер так, чтобы он обеспечивал достаточную мощность для теста и при этом не оказался слишком большим, чтобы длительность теста сильно не увеличивалась (более длительный тест стоит дороже и замедляет темп проведения тестирования).
У каждого варианта и анализируемого сегмента должно быть значительное количество пользователей. Чтобы у тестов всегда получалась хорошая статистическая мощность, надо планировать размер выборки заранее. Иначе можно не заметить, что вариаций и сегментов слишком много. Если вы увидите это на позднем этапе, в итоге получите после теста много групп с маленьким количеством пользователей.
Рассчитывайте получить статистически значимый результат в разумный период времени — не меньше одной недели или одного бизнес-цикла. Чаще всего рекомендуют проводить тестирование от 2 до 4 недель. Если делать его дольше, у вас могут появиться проблемы, связанные с «загрязнением» выборки и удалением файлов cookie.
Следует установить минимальный размер выборки и заранее задать временные рамки. Тогда вы избежите распространённой ошибки: провести сплит-тест «вслепую» и завершить его до получения статистически значимой разницы.
2. Минимальный обнаружимый эффект (MDE)
Минимальный обнаружимый эффекта (MDE) — это разница результатов, которую планируется выявить.
Небольшие различия сложно обнаружить, и для этого требуется более крупная выборка. Значимый эффект можно выявить с меньшими размерами. Тем не менее, эти «улучшения» на основе небольших выборок могут оказаться ненадёжными.
Дело в том, что не существует фиксированного размера выборки, поэтому номинальный уровень и вилка значений, которым можно доверять, являются ненадёжными.
Если бы действовало какое-нибудь правило, где надо остановиться, или существовала чёткая вилка размеров выборки, 500%-ное улучшение на основе очень маленькой выборки, вероятно, сопровождалось бы уровнем доверия в 95% из вероятности +5% до +995%.
3. Уровень значимости
Результат теста считается статистически значимым, если предположить, что нулевая гипотеза неверна.
Это определение можно упростить до более простого пояснения: если сплит-тесту для двух лендингов можно на 95% доверять в пользу одного варианта, есть всего 5%-ная вероятность, что наблюдаемое улучшение — результат случайности, или 95%-ная вероятность, что разница происходит не из-за случайности.
5% — это общепринятый начальный уровень значимости в онлайн-тесте, и, как уже упоминалось ранее, такова же и вероятность совершения ошибки I типа. Альфа в 5% значит, что вы допускаете 5%-ную вероятность ошибочно отказаться от нулевой гипотезы.
Если вы снижаете уровень альфа с 5% до 1%, вы в то же время увеличиваете вероятность совершения ошибки II типа при прочих равных. А увеличение риска совершить ошибку II типа снижает эффективность тестирования.
4. Желаемый уровень мощности
При 80%-ной мощности есть 20%-ная вероятность не обнаружить реальную разницу. Если 20% для вас слишком большой риск, можно снизить эту вероятность до 10%, 5% или даже 1%, и это увеличит статистическую мощность до 90%, 95% и 99% соответственно.
Прежде чем думать, что вы решите все свои проблемы, запуская тесты с мощностью 95% или 99%, поймите, что каждое увеличение мощности требует соответствующего увеличения объёма выборки и времени, необходимого для проведения теста.
Так какая же мощность вам действительно нужна? Общепринятым уровнем приемлемого риска ложноотрицательных результатов в оптимизации конверсии считается 20% с соответствующим уровнем мощности в 80%.
Нет какого-либо жёсткого установленного стандарта в 80% мощности, но это разумный баланс между риском альфа- и бета-ошибок.
Надо учитывать следующее:
- какой риск для вас приемлемый, когда вы реально можете упустить качественное улучшение;
- какой минимальный объём выборки, необходимый для достижения желаемой мощности каждого варианта.
Как рассчитать статистическую мощность для тестирования
Можно использовать калькулятор A/B тестов. Следует ввести значения и определить, какой объём выборки нужен для достаточной мощности теста. Если три вводные известны, вычисляем четвёртую.
Например, вы определили, что необходим объём выборки в 681 клиента на каждый вариант. Расчёт выполнили на основе вводных: мощность теста 80% и альфа 5% (95% статистической значимости). Вы знали, что уровень конверсии в контрольной группе составляет 14%, и ожидали, что вариант будет иметь показатель 19%.
Расчёт объёма выборки
Точно так же, если знать объём выборки для каждого варианта, альфу и желаемый уровень мощности (например, 80%), можно найти минимальный размер эффекта MDE, необходимый для достижения этой мощности, в данном случае — 19%.
Расчёт минимального обнаружимого эффекта (MDE)
Что делать, если увеличить объём выборки невозможно
Может так случиться, что вам потребуется больше мощности, но увеличить объём выборки не получится: например, сегмент внутри проводимого теста слишком маленький, или посещаемость страницы слишком низкая.
Например, вы вводите свои параметры в калькулятор A/B-тестирования, и он требует объём выборки более 8 000.
Определение необходимого размера выборки
Если у вас нет возможности достичь этого минимума, или это займет долгие месяцы, как вариант можно увеличить MDE. В этом примере увеличение MDE с 10% до 25% снижает объём выборки до 1 356 для каждого варианта.
Увеличение MDE для получения нужного размера выборки
Но часто ли действительно получается достичь MDE в 25%? И насколько снизится качество? В таком случае наилучший выход — снизить уровень уверенности до 90% при условии, что вы готовы к 10%-ному риску ошибки I типа.
Снижение уровня уверенности для получения необходимого объёма выборки
С чего начать? Аналитики сначала привязываются к размеру выборки (тест должен быть завершен в течение N количества недель) и потом произвольно выкручивают остальные значения, пока результат их не устроит.
Правильный баланс — это:
- вдумчивое планирование, чтобы определиться с тем, какие именно значения отрегулировать;
- обращение в выгоду измерений потенциальных колебаний ROI для любого изменения тестируемых переменных.
Заключение
Статистическая мощность помогает отслеживать ошибки, подтверждает результаты теста и существенно увеличивает вероятность обнаружения практически значимых факторов эффективности.
Применяйте следующие рекомендации:
- Проводите тесты в течение 2-4 недель.
- Используйте калькулятор тестирования, чтобы рассчитать правильную мощность тестов.
- Соблюдайте минимальные требования по объёму выборки.
- Если нужно, тестируйте более значительные изменения и наблюдайте за их эффективностью.
- Используйте статистическую значимость только после выполнения минимальных требований по объёму выборки.
- Планируйте достаточную мощность для всех вариантов и в дальнейшем проводите тест сегментов.
Источник: CXL
Подписывайтесь на наш Telegram-канал. Там вы найдёте самые интересные тренды и новости в сфере digital-маркетинга и технологий. Подписывайтесь и будьте в теме вместе с нами!
Вам может быть интересно:
О том, что такое аудит данных, как его правильно провести и в чём важность для бизнеса.
Читать далееВ новой статье рассказываем, как компания «Открытие Брокер» полностью автоматизировала свой маркетинг с помощью платформы Altkraft Marketing.
Читать далееПеревели статью Talkwalker о лучших маркетинговых digital-стратегиях для сферы финансовых услуг. О том, как продвигать банки, страховые и брокерские компании, читайте в нашей статье.
Читать далее