Аналитика / A/B-тесты

Минимальный размер выборки для двух долей (базовый)

Базовая оценка числа участников в каждой группе для обнаружения минимально значимого эффекта с заданными \alpha и power.

Опубликовано: Обновлено:

Формула

$$n \approx \frac{(z_{1-\alpha/2}+z_{1-\beta})^2\left[p_A(1-p_A)+p_B(1-p_B)\right]}{MDE^2},\; n_A=n_B=n$$
Карта Рост n при снижении MDE

Графически видно обратную квадратичную зависимость n от требуемого MDE.

Малый детектируемый эффект означает крупный эксперимент.

Обозначения

$n$
объем в одной группе, шт.
$MDE$
желаемый минимальный детектируемый эффект (абсолютная разница долей), доля
$p_A,p_B$
ожидаемые конверсии в A и B, доля
$z_{1-\alpha/2}$
критическое значение по уровню значимости, безразмерное
$z_{1-\beta}$
критическое значение по мощности (1-β), безразмерное

Условия применения

  • Выбирается ориентир базовой конверсии p_A и p_B заранее.
  • Группы считаются равными по размеру.
  • Используется для первичной прикидки, затем уточняется после пилота.

Ограничения

  • Базовая формула — упрощение и не учитывает все практические нюансы трафика.
  • При больших дисбалансах групп нужно отдельно считать n_A и n_B.
  • Результат чувствителен к выбранному MDE; маленький MDE резко увеличивает n.

Подробное объяснение

Формула балансирует три фактора: ожидаемый уровень шума (через p(1-p)), требуемую строгость проверки (α) и желаемую вероятность обнаружения эффекта (power).

Как пользоваться формулой

  1. Задайте целевой MDE и пороги α и power.
  2. Оцените базовый уровень p_A и p_B.
  3. Подставьте в формулу для базовой оценки n.
  4. Округлите вверх и закладывайте запас для очистки данных.

Историческая справка

Такой вид оценок размера выборки применяется во всех крупных A/B-платформах и внутренних методических документах команд роста.

Пример

При p_A=p_B=0,02, MDE=0,005, α=0,05 (z=1,96), power=80% (z=0,84): n≈((1,96+0,84)^2·2·0,02·0,98)/0,005^2≈4960 на группу.

Частая ошибка

Оставлять MDE в процентах как 5 вместо 0,05 в формуле.

Практика

Задачи с решением

Оценка n на 80% power

Условие. p_A=0,03, p_B=0,03, MDE=0,004, α=0,05, power=80%.

Решение. n≈((1,96+0,84)^2·(0,03·0,97+0,03·0,97))/0,004^2≈3387.

Ответ. Около 3387 пользователей на группу.

Повышение power

Условие. То же, но power=90% (z=1,28), α=0,05.

Решение. z-коэффициент: 1,96+1,28=3,24, n≈3,24^2·0,0582/0,004^2≈3856.

Ответ. Около 3856 пользователей на группу.

Дополнительные источники

  • OpenIntro Statistics, chapter on power and sample size
  • NIST/SEMATECH e-Handbook of Statistical Methods, sample size determination for proportions

Связанные формулы

Аналитика

MDE (минимально детектируемый эффект)

$MDE = (z_{1-\alpha/2}+z_{1-\beta})\sqrt{\frac{\hat p_A(1-\hat p_A)}{n_A}+\frac{\hat p_B(1-\hat p_B)}{n_B}}$

MDE показывает минимальную разницу конверсий, которую тест сможет обнаружить с заданным α и power.

Аналитика

Мощность теста (power) для разности долей — концепт

$\text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right)$

Power отвечает на вопрос: с какой вероятностью тест обнаружит реальный эффект \Delta при заданном дизайне.