Аналитика / A/B-тесты

Мощность теста (power) для разности долей — концепт

Мощность теста (power) для разности долей — концепт: формула \text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right) помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть ус...

Опубликовано: Обновлено:

Формула

$$\text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right)$$
Карта Как Δ и SE влияют на power

Поверхность или линии уровня, где увеличивающийся Δ и/или уменьшающийся SE повышают power.

Интуитивный ориентир: не делать очень маленькие тесты под очень маленькие эффекты.

Обозначения

$\text{Power}$
вероятность обнаружить эффект (1-β), доля
$\beta$
ошибка II рода, доля
$\Delta$
истинная разница конверсий, доля
$SE_{\Delta}$
стандартная ошибка разности, доля
$\Phi$
CDF стандартного нормального распределения, безразмерная

Условия применения

  • Используется нормальное приближение для ориентировочного расчета.
  • Значения для расчета согласованы по смыслу: \text{Power} — вероятность обнаружить эффект (1-β) (доля); \beta — ошибка II рода (доля).
  • Единицы, период наблюдения, лист таблицы или расчетная схема выбраны до подстановки.

Ограничения

  • Формула относится к области A/B-тестов и продуктовой статистики и не заменяет выбор модели.
  • Если данные взяты из разных источников или периодов, результат нельзя сравнивать напрямую.
  • Округление промежуточных строк допустимо только после проверки единиц и масштаба.

Подробное объяснение

Смысл страницы «Мощность теста (power) для разности долей — концепт» — посчитать метрику или статистическую проверку по данным эксперимента. Формула \text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right) нужна не сама по себе, а как короткая модель из области A/B-тестов и продуктовой статистики. Перед вычислением проверяют условие: Используется нормальное приближение для ориентировочного расчета. Обозначения читают до арифметики: \text{Power} — вероятность обнаружить эффект (1-β) (доля); \beta — ошибка II рода (доля); \Delta — истинная разница конверсий (доля); SE_{\Delta} — стандартная ошибка разности (доля). Похожую величину с другой базой не берут автоматически. Такой шаг особенно важен в материалах, где рядом стоят близкие формулы. Рабочая ситуация: в отчете по рассылке фиксируют отправленные сообщения, открытия и покупки за один и тот же период, не смешивая повторные события. Достаточно одной подстановки и проверки. База сравнения здесь важнее красивого числа: если в одной группе считать пользователей, а в другой сессии, результат уже нельзя интерпретировать как эффект эксперимента; для этой записи отдельно сверяют \text{Power} — вероятность обнаружить эффект (1-β) (доля). После получения результата его сверяют с ограничениями. Знак, единица и порядок величины должны соответствовать исходной модели. Если проверка не проходит, исправляют не финальную строку, а выбор данных.

Как пользоваться формулой

  1. Сформулируйте, что именно нужно найти, и выберите запись \text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right).
  2. Выпишите исходные величины: \text{Power} — вероятность обнаружить эффект (1-β) (доля); \beta — ошибка II рода (доля); \Delta — истинная разница конверсий (доля).
  3. Проверьте единицы, период, диапазон таблицы или геометрическую схему.
  4. Подставьте значения без раннего округления.
  5. Сверьте знак, масштаб и поведение результата при изменении главного параметра.

Историческая справка

История записи «Мощность теста (power) для разности долей — концепт» связана с практикой A/B-тестов и продуктовой статистики. Такие формулы закреплялись потому, что помогали посчитать метрику или статистическую проверку по данным эксперимента. В учебниках и справочниках постепенно стабилизировались обозначения: \text{Power} — вероятность обнаружить эффект (1-β) (доля); \beta — ошибка II рода (доля). Современная форма \text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right) ценна тем, что дает короткий путь от условия к проверяемому результату. Для этой страницы историческая справка полезна еще и как защита от неверной аналогии: Используется нормальное приближение для ориентировочного расчета. В разных источниках могут меняться буквы, порядок записи и единицы, но расчетная потребность остается прежней: сначала выбрать модель, затем проверить данные и только потом считать. Исторический блок здесь нужен не для украшения, а для понимания модели и ее границ.

Историческая линия формулы

У записи «Мощность теста (power) для разности долей — концепт» нет одного бытового автора. Контекст — развитие A/B-тестов и продуктовой статистики. Также важны учебные курсы и рабочие методики. Формула \text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right) здесь дана как современная расчетная запись. Имена из источников уточняют историю метода, но не заменяют условия применения.

Пример

Пример: в тесте новой формы регистрации считают только уникальных пользователей: 320 успехов из 4 000 в контроле и 369 из 4 100 в варианте. Цель для «Мощность теста (power) для разности долей — концепт» — посчитать метрику или статистическую проверку по данным эксперимента. Перед подстановкой выбирают одну строку, один объект или один период. Рабочие величины: \text{Power} — вероятность обнаружить эффект (1-β) (доля); \beta — ошибка II рода (доля); \Delta — истинная разница конверсий (доля). Дальше данные подставляют в \text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right) без смены модели по ходу решения. База сравнения здесь важнее красивого числа: если в одной группе считать пользователей, а в другой сессии, результат уже нельзя интерпретировать как эффект эксперимента; для этой записи отдельно сверяют \text{Power} — вероятность обнаружить эффект (1-β) (доля). В конце меняют один ключевой параметр мысленно. Направление изменения должно совпасть со смыслом задачи.

Частая ошибка

Для «Мощность теста (power) для разности долей — концепт» опаснее всего начать с похожей записи. Сверьте обозначения: \text{Power} — вероятность обнаружить эффект (1-β) (доля); \beta — ошибка II рода (доля); \Delta — истинная разница конверсий (доля). Нельзя менять метрику после просмотра результата, смешивать пользователей и сессии, включать повторные конверсии без правила дедупликации и сравнивать группы с разным окном наблюдения. Если ответ выглядит правдоподобно, проверьте его источник. Порядок простой: символ, значение, единица, источник, подстановка, округление.

Практика

Задачи с решением

Проверить исходные данные

Условие. Для «Мощность теста (power) для разности долей — концепт» заданы величины из условия. Нужно посчитать метрику или статистическую проверку по данным эксперимента.

Решение. Составляем таблицу символов, значений, единиц и источников. Убираем данные, которые относятся к другой модели.

Ответ. К расчету оставлены только согласованные исходные величины.

Выполнить подстановку

Условие. Данные согласованы, требуется применить \text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right).

Решение. Подставляем значения, сохраняем промежуточную точность и отдельно проверяем единицу результата.

Ответ. Ответ принимается только после проверки знака, масштаба и смысла.

Дополнительные источники

  • OpenIntro Statistics, power and Type II error
  • NIST/SEMATECH e-Handbook of Statistical Methods, power of statistical tests
  • Kohavi, Tang, Xu. Trustworthy Online Controlled Experiments, Cambridge University Press, 2020
  • Ron Kohavi et al. Online Controlled Experiments at Large Scale, KDD 2013
  • NIST/SEMATECH e-Handbook of Statistical Methods: proportions and confidence intervals

Связанные формулы

Аналитика

Минимальный размер выборки для двух долей (базовый)

$n \approx \frac{(z_{1-\alpha/2}+z_{1-\beta})^2\left[p_A(1-p_A)+p_B(1-p_B)\right]}{MDE^2},\; n_A=n_B=n$

Минимальный размер выборки для двух долей (базовый): формула n \approx \frac{(z_{1-\alpha/2}+z_{1-\beta})^2\left[p_A(1-p_A)+p_B(1-p_B)\right]}{MDE^2},\; n_A=n_B=n помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.

Аналитика

MDE в статистике и A/B-тестах

$MDE = (z_{1-\alpha/2}+z_{1-\beta})\sqrt{\frac{\hat p_A(1-\hat p_A)}{n_A}+\frac{\hat p_B(1-\hat p_B)}{n_B}}$

MDE в статистике и A/B-тестах: формула MDE = (z_{1-\alpha/2}+z_{1-\beta})\sqrt{\frac{\hat p_A(1-\hat p_A)}{n_A}+\frac{\hat p_B(1-\hat p_B)}{n_B}} помогает требуется требуется требуется требуется требуется требуется требуется посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть услови...

Аналитика

p-value без калькулятора: ориентиры по z

$p \approx 2\,(1-\Phi(|z|)),\; \text{а без калькулятора: }|z|\approx1{,}64\Rightarrow p\approx0{,}10,\;1{,}96\Rightarrow0{,}05,\;2{,}58\Rightarrow0{,}01$

p-value без калькулятора: ориентиры по z: формула p \approx 2\,(1-\Phi(|z|)),\; \text{а без калькулятора: }|z|\approx1{,}64\Rightarrow p\approx0{,}10,\;1{,}96\Rightarrow0{,}05,\;2{,}58\Rightarrow0{,}01 помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, оши...