Аналитика / A/B-тесты

Мощность теста (power) для разности долей — концепт

Power отвечает на вопрос: с какой вероятностью тест обнаружит реальный эффект \Delta при заданном дизайне.

Опубликовано: Обновлено:

Формула

$$\text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right)$$
Карта Как Δ и SE влияют на power

Поверхность или линии уровня, где увеличивающийся Δ и/или уменьшающийся SE повышают power.

Интуитивный ориентир: не делать очень маленькие тесты под очень маленькие эффекты.

Обозначения

$\text{Power}$
вероятность обнаружить эффект (1-β), доля
$\beta$
ошибка II рода, доля
$\Delta$
истинная разница конверсий, доля
$SE_{\Delta}$
стандартная ошибка разности, доля
$\Phi$
CDF стандартного нормального распределения, безразмерная

Условия применения

  • Используется нормальное приближение для ориентировочного расчета.
  • Нужен заранее зафиксированный target effect \Delta.
  • Оценка справедлива при корректно посчитанных размерах групп.

Ограничения

  • Это упрощенная формула; практические платформы используют более детальные расчеты.
  • Для малых эффектов требуется большая n для разумного power.
  • Не учитываются внешние шумы: спайки трафика, сезонность, технические срезы.

Подробное объяснение

Формула показывает остаточный риск пропуска эффекта (β). Чем больше Δ относительно шума SE_{\Delta}, тем выше power.

Как пользоваться формулой

  1. Задайте целевой эффект, α и структуру выборок.
  2. Оцените SE_{\Delta}.
  3. Посчитайте аргумент для функции Φ.
  4. Получите power и решите, достаточно ли длинен эксперимент.

Историческая справка

Концепция power выросла как инженерный стандарт планирования экспериментов после распространения практики онлайн-экспериментов.

Пример

Если |Δ|=0,004, SE=0,0018, α=0,05 ⇒ z_{1-α/2}=1,96, то внутреннее значение 1,96-2,22= -0,26, β≈0,397, power≈60%.

Частая ошибка

Считать power после запуска без предварительного расчета и затем оправдывать неудачный результат.

Практика

Задачи с решением

Низкая мощность

Условие. Δ=0,003, SE=0,0025, α=0,05.

Решение. Аргумент для Φ: 1,96-1,2=0,76, β≈0,776, power≈22,4%.

Ответ. Power очень низкая: тест почти не заметит такой эффект.

Улучшение power

Условие. Снизьте SE до 0,0015 при том же Δ и α.

Решение. Аргумент: 1,96-2,0=-0,04, β≈0,484, power≈51,6%.

Ответ. Power растет, но для надежного 80% нужно еще меньше SE (больше n).

Дополнительные источники

  • OpenIntro Statistics, power and Type II error
  • NIST/SEMATECH e-Handbook of Statistical Methods, power of statistical tests

Связанные формулы

Аналитика

MDE (минимально детектируемый эффект)

$MDE = (z_{1-\alpha/2}+z_{1-\beta})\sqrt{\frac{\hat p_A(1-\hat p_A)}{n_A}+\frac{\hat p_B(1-\hat p_B)}{n_B}}$

MDE показывает минимальную разницу конверсий, которую тест сможет обнаружить с заданным α и power.

Аналитика

p-value без калькулятора: ориентиры по z

$p \approx 2\,(1-\Phi(|z|)),\; \text{а без калькулятора: }|z|\approx1{,}64\Rightarrow p\approx0{,}10,\;1{,}96\Rightarrow0{,}05,\;2{,}58\Rightarrow0{,}01$

Если нет точного калькулятора, используйте фиксированные пороговые значения |z| для быстрой оценки значимости.