Аналитика / A/B-тесты

p-value без калькулятора: ориентиры по z

Если нет точного калькулятора, используйте фиксированные пороговые значения |z| для быстрой оценки значимости.

Опубликовано: Обновлено:

Формула

$$p \approx 2\,(1-\Phi(|z|)),\; \text{а без калькулятора: }|z|\approx1{,}64\Rightarrow p\approx0{,}10,\;1{,}96\Rightarrow0{,}05,\;2{,}58\Rightarrow0{,}01$$
Табличный блок Карта z->p без калькулятора

Небольшая таблица контрольных точек для ежедневной работы на дежурстве.

Используется для моментальной оценки уровня значимости.

Обозначения

$z$
z-статистика разности долей, безразмерная величина
$p$
p-value двусторонней проверки, вероятность
$\Phi$
функция нормального распределения, безразмерная

Условия применения

  • Пороговые оценки подходят только для двусторонней проверки.
  • Для финального отчета лучше считать p-value более точно.
  • Используйте знак z для направления эффекта.
  • Подразумевается нормальное приближение.

Ограничения

  • Это не точный расчет p-value, а эвристика.
  • На границе порогов возможны расхождения с точным значением.
  • При нарушении аппроксимации нормальности качество оценки падает.

Подробное объяснение

Значение z переводится в вероятность отклонить H0 при условии ее верности. Чем больше |z|, тем меньше p. Для практики удобны типовые контрольные точки.

Как пользоваться формулой

  1. Получите z из страницы z-статистики.
  2. Оценивайте |z| по шкале: 1.64, 1.96, 2.33, 2.58, 3.29.
  3. Сопоставьте интервал p и уровень значимости.
  4. При спорных значениях доведите расчет точным способом.

Историческая справка

Практическая интерпретация z-критерия развивалась в прикладной статистике и продуктовой аналитике как быстрый «скрининг».

Пример

Если получилось z=2.45, это между 2.33 и 2.58, поэтому p примерно 0.014–0.020 (порядок статистической значимости около 1–5%).

Частая ошибка

Решать бизнес задачу только по этим порогам без проверки эффектов и мощности теста.

Практика

Задачи с решением

Быстрый отбор сигнала

Условие. |z|=1,80.

Решение. |z|=1,80 ниже 1,96 и выше 1,64: p между 0,10 и 0,05.

Ответ. p \approx 0,07 (эскизно), слабая статистическая поддержка.

Сильная сигнализация

Условие. |z|=2,70.

Решение. 2,58 ≤ |z| < 3,29, значит p меньше 0,01 и обычно меньше 0,01.

Ответ. p \approx 0{,}007\text{ (эскизно)}

Дополнительные источники

  • NIST/SEMATECH e-Handbook of Statistical Methods, normal approximation and p-values
  • OpenIntro Statistics, hypothesis testing and p-values
  • Evan Miller, A/B testing significance interpretation

Связанные формулы

Аналитика

Z-статистика для двух долей

$z = \frac{\hat p_B-\hat p_A}{SE_{\Delta}}$

Z-статистика показывает, насколько наблюдаемая разница конверсий удалена от нуля относительно дисперсии.

Аналитика

Мощность теста (power) для разности долей — концепт

$\text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right)$

Power отвечает на вопрос: с какой вероятностью тест обнаружит реальный эффект \Delta при заданном дизайне.