Аналитика / A/B-тесты

Размер выборки для MDE двух долей

Размер выборки для MDE двух долей: формула n=\frac{2(z_\alpha+z_\beta)^2p(1-p)}{\Delta^2} помогает требуется требуется требуется требуется требуется требуется понять, хватит ли трафика для обнаружения минимального эффекта. В тексте есть условия, пример, ошибки и проверка результата.

Опубликовано: Обновлено:

Формула

$$n=\frac{2(z_\alpha+z_\beta)^2p(1-p)}{\Delta^2}$$

Обозначения

$n$
число наблюдений, шагов, периодов или элементов
$z_alpha$
параметр формулы z_alpha, значение выбирают из условия задачи
$z_beta$
параметр формулы z_beta, значение выбирают из условия задачи
$p$
параметр формулы p, значение выбирают из условия задачи
$Delta$
изменение величины или минимальный эффект

Условия применения

  • Формулу применяют, когда величины n, z_alpha, z_beta, p заданы для одной и той же ситуации, периода или объекта.
  • Значения для расчета согласованы по смыслу: n — число наблюдений, шагов, периодов или элементов; z_alpha — параметр формулы z_alpha, значение выбирают из условия задачи.
  • Единицы, период наблюдения, лист таблицы или расчетная схема выбраны до подстановки.

Ограничения

  • Формула относится к области A/B-тестов и продуктовой статистики и не заменяет выбор модели.
  • Если данные взяты из разных источников или периодов, результат нельзя сравнивать напрямую.
  • Округление промежуточных строк допустимо только после проверки единиц и масштаба.

Подробное объяснение

Смысл страницы «Размер выборки для MDE двух долей» — требуется требуется требуется требуется требуется требуется требуется понять, хватит ли трафика для обнаружения минимального эффекта. Формула n=\frac{2(z_\alpha+z_\beta)^2p(1-p)}{\Delta^2} нужна не сама по себе, а как короткая модель из области A/B-тестов и продуктовой статистики. Перед вычислением проверяют условие: Формулу применяют, когда величины n, z_alpha, z_beta, p заданы для одной и той же ситуации, периода или объекта. Обозначения читают до арифметики: n — число наблюдений, шагов, периодов или элементов; z_alpha — параметр формулы z_alpha, значение выбирают из условия задачи; z_beta — параметр формулы z_beta, значение выбирают из условия задачи; p — параметр формулы p, значение выбирают из условия задачи. Похожую величину с другой базой не берут автоматически. Такой шаг особенно важен в материалах, где рядом стоят близкие формулы. Рабочая ситуация: в отчете по рассылке фиксируют отправленные сообщения, открытия и покупки за один и тот же период, не смешивая повторные события. Достаточно одной подстановки и проверки. База сравнения здесь важнее красивого числа: если в одной группе считать пользователей, а в другой сессии, результат уже нельзя интерпретировать как эффект эксперимента; для этой записи отдельно сверяют n — число наблюдений, шагов, периодов или элементов. После получения результата его сверяют с ограничениями. Знак, единица и порядок величины должны соответствовать исходной модели. Если проверка не проходит, исправляют не финальную строку, а выбор данных.

Как пользоваться формулой

  1. Сформулируйте, что именно нужно найти, и выберите запись n=\frac{2(z_\alpha+z_\beta)^2p(1-p)}{\Delta^2}.
  2. Выпишите исходные величины: n — число наблюдений, шагов, периодов или элементов; z_alpha — параметр формулы z_alpha, значение выбирают из условия задачи; z_beta — параметр формулы z_beta, значение выбирают из условия задачи.
  3. Проверьте единицы, период, диапазон таблицы или геометрическую схему.
  4. Подставьте значения без раннего округления.
  5. Сверьте знак, масштаб и поведение результата при изменении главного параметра.

Историческая справка

История записи «Размер выборки для MDE двух долей» связана с практикой A/B-тестов и продуктовой статистики. Такие формулы закреплялись потому, что помогали требуется требуется требуется требуется требуется требуется требуется понять, хватит ли трафика для обнаружения минимального эффекта. В учебниках и справочниках постепенно стабилизировались обозначения: n — число наблюдений, шагов, периодов или элементов; z_alpha — параметр формулы z_alpha, значение выбирают из условия задачи. Современная форма n=\frac{2(z_\alpha+z_\beta)^2p(1-p)}{\Delta^2} ценна тем, что дает короткий путь от условия к проверяемому результату. Для этой страницы историческая справка полезна еще и как защита от неверной аналогии: Формулу применяют, когда величины n, z_alpha, z_beta, p заданы для одной и той же ситуации, периода или объекта. В разных источниках могут меняться буквы, порядок записи и единицы, но расчетная потребность остается прежней: сначала выбрать модель, затем проверить данные и только потом считать. Исторический блок здесь нужен не для украшения, а для понимания модели и ее границ.

Историческая линия формулы

У записи «Размер выборки для MDE двух долей» нет одного бытового автора. Контекст — развитие A/B-тестов и продуктовой статистики. Также важны учебные курсы и рабочие методики. Формула n=\frac{2(z_\alpha+z_\beta)^2p(1-p)}{\Delta^2} здесь дана как современная расчетная запись. Имена из источников уточняют историю метода, но не заменяют условия применения.

Пример

Пример: в тесте новой формы регистрации считают только уникальных пользователей: 320 успехов из 4 000 в контроле и 369 из 4 100 в варианте. Цель для «Размер выборки для MDE двух долей» — требуется требуется требуется требуется требуется требуется требуется понять, хватит ли трафика для обнаружения минимального эффекта. Перед подстановкой выбирают одну строку, один объект или один период. Рабочие величины: n — число наблюдений, шагов, периодов или элементов; z_alpha — параметр формулы z_alpha, значение выбирают из условия задачи; z_beta — параметр формулы z_beta, значение выбирают из условия задачи. Дальше данные подставляют в n=\frac{2(z_\alpha+z_\beta)^2p(1-p)}{\Delta^2} без смены модели по ходу решения. База сравнения здесь важнее красивого числа: если в одной группе считать пользователей, а в другой сессии, результат уже нельзя интерпретировать как эффект эксперимента; для этой записи отдельно сверяют n — число наблюдений, шагов, периодов или элементов. В конце меняют один ключевой параметр мысленно. Направление изменения должно совпасть со смыслом задачи.

Частая ошибка

В «Размер выборки для MDE двух долей» ошибка часто появляется до арифметики. Сверьте обозначения: n — число наблюдений, шагов, периодов или элементов; z_alpha — параметр формулы z_alpha, значение выбирают из условия задачи; z_beta — параметр формулы z_beta, значение выбирают из условия задачи. Нельзя менять метрику после просмотра результата, смешивать пользователей и сессии, включать повторные конверсии без правила дедупликации и сравнивать группы с разным окном наблюдения. Если ответ выглядит правдоподобно, проверьте его источник. Порядок простой: символ, значение, единица, источник, подстановка, округление.

Практика

Задачи с решением

Проверить исходные данные

Условие. Для «Размер выборки для MDE двух долей» заданы величины из условия. Нужно требуется требуется требуется требуется требуется требуется требуется понять, хватит ли трафика для обнаружения минимального эффекта.

Решение. Составляем таблицу символов, значений, единиц и источников. Убираем данные, которые относятся к другой модели.

Ответ. К расчету оставлены только согласованные исходные величины.

Выполнить подстановку

Условие. Данные согласованы, требуется применить n=\frac{2(z_\alpha+z_\beta)^2p(1-p)}{\Delta^2}.

Решение. Подставляем значения, сохраняем промежуточную точность и отдельно проверяем единицу результата.

Ответ. Ответ принимается только после проверки знака, масштаба и смысла.

Дополнительные источники

  • NIST/SEMATECH e-Handbook of Statistical Methods, hypothesis tests and regression diagnostics.
  • Kohavi, Tang, Xu. Trustworthy Online Controlled Experiments, Cambridge University Press, 2020.
  • Hyndman, Athanasopoulos. Forecasting: Principles and Practice, 3rd edition.

Связанные формулы

Аналитика

z-тест для сравнения двух долей

$z=\frac{p_1-p_2}{\sqrt{p(1-p)(1/n_1+1/n_2)}}$

z-тест для сравнения двух долей: формула z=\frac{p_1-p_2}{\sqrt{p(1-p)(1/n_1+1/n_2)}} помогает величины z, p_1, p_2, p заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.

Аналитика

t-тест для сравнения двух средних

$t=\frac{\bar x_1-\bar x_2}{s_p\sqrt{1/n_1+1/n_2}}$

t-тест для сравнения двух средних: формула t=\frac{\bar x_1-\bar x_2}{s_p\sqrt{1/n_1+1/n_2}} помогает величины t, x_1, x_2, s_p заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.

Аналитика

t-тест Уэлча для средних с разными дисперсиями

$t=\frac{\bar x_1-\bar x_2}{\sqrt{s_1^2/n_1+s_2^2/n_2}}$

t-тест Уэлча для средних с разными дисперсиями: формула t=\frac{\bar x_1-\bar x_2}{\sqrt{s_1^2/n_1+s_2^2/n_2}} помогает величины t, x_1, x_2, s_1 заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.

Аналитика

Критерий хи-квадрат независимости

$\chi^2=\sum\frac{(O-E)^2}{E}$

Критерий хи-квадрат независимости: формула \chi^2=\sum\frac{(O-E)^2}{E} помогает величины chi, O, E заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.