Предмет

Аналитика

Формулы для статистики, A/B-тестов, прогнозирования, продуктовых метрик, когорт и качества данных.

Раздел

Основные разделы

10 формул

Описательная статистика

Среднее, медиана, дисперсия, стандартное отклонение и распределения.

10 формул

A/B-тесты

Конверсии, доверительные интервалы, мощность теста и размер выборки.

9 формул

Продуктовые метрики

Retention, churn, LTV, CAC, ARPU, ARPPU и воронки.

Все формулы раздела

Conversion rate (конверсия)

Конверсия показывает долю пользователей, для которых событие (например, покупка или клик) произошло в группе.

$\hat{p}=\frac{X}{n}$

Относительный uplift (относительный прирост)

Относительный uplift показывает, насколько тест улучшил конверсию относительно контроля в процентах.

$\text{uplift}_{\%}=\frac{\hat p_B-\hat p_A}{\hat p_A}\cdot 100\%$

Абсолютный uplift (разница конверсий)

Абсолютный uplift — это простая разница между конверсиями B и A.

$\Delta = \hat p_B-\hat p_A$

Стандартная ошибка доли

SE конверсии показывает, насколько оценка доли может «плавать» из-за случайного разброса выборки.

$SE(\hat p)=\sqrt{\frac{\hat p(1-\hat p)}{n}}$

Z-статистика для двух долей

Z-статистика показывает, насколько наблюдаемая разница конверсий удалена от нуля относительно дисперсии.

$z = \frac{\hat p_B-\hat p_A}{SE_{\Delta}}$

p-value без калькулятора: ориентиры по z

Если нет точного калькулятора, используйте фиксированные пороговые значения |z| для быстрой оценки значимости.

$p \approx 2\,(1-\Phi(|z|)),\; \text{а без калькулятора: }|z|\approx1{,}64\Rightarrow p\approx0{,}10,\;1{,}96\Rightarrow0{,}05,\;2{,}58\Rightarrow0{,}01$

Доверительный интервал разницы конверсий

Интервал показывает диапазон значимых значений разницы между группами на заданном уровне надежности.

$(\hat p_B-\hat p_A)\pm z_{1-\alpha/2}\cdot SE_{\Delta}$

Минимальный размер выборки для двух долей (базовый)

Базовая оценка числа участников в каждой группе для обнаружения минимально значимого эффекта с заданными \alpha и power.

$n \approx \frac{(z_{1-\alpha/2}+z_{1-\beta})^2\left[p_A(1-p_A)+p_B(1-p_B)\right]}{MDE^2},\; n_A=n_B=n$

MDE (минимально детектируемый эффект)

MDE показывает минимальную разницу конверсий, которую тест сможет обнаружить с заданным α и power.

$MDE = (z_{1-\alpha/2}+z_{1-\beta})\sqrt{\frac{\hat p_A(1-\hat p_A)}{n_A}+\frac{\hat p_B(1-\hat p_B)}{n_B}}$

Мощность теста (power) для разности долей — концепт

Power отвечает на вопрос: с какой вероятностью тест обнаружит реальный эффект \Delta при заданном дизайне.

$\text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right)$

Среднее арифметическое

Среднее арифметическое показывает типичный уровень числового показателя как сумму всех значений, деленную на количество наблюдений.

$\bar{x}=\frac{x_1+x_2+\dots+x_n}{n}$

Медиана

Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.

$Me=x_{(\frac{n+1}{2})}\quad\text{для нечетного }n$

Мода

Мода — это значение, которое встречается в наборе данных чаще всего. Она полезна для категорий, популярных вариантов и повторяющихся числовых значений.

$Mo=\text{значение с максимальной частотой}$

Размах вариации

Размах вариации показывает расстояние между максимальным и минимальным значением набора данных. Это самый простой показатель разброса.

$R=x_{max}-x_{min}$

Выборочная дисперсия

Выборочная дисперсия измеряет средний квадрат отклонений значений от среднего с поправкой на n−1 для оценки разброса по выборке.

$s^2=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}$

Выборочное стандартное отклонение

Выборочное стандартное отклонение показывает типичный масштаб отклонения значений от среднего в исходных единицах показателя.

$s=\sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}$

Квартили и межквартильный размах

Межквартильный размах показывает ширину средней половины данных: это разница между третьим и первым квартилем, устойчивее полного размаха.

$IQR=Q_3-Q_1$

Правило выбросов по IQR

Правило 1,5 IQR помечает значения как возможные выбросы, если они лежат ниже Q1−1,5·IQR или выше Q3+1,5·IQR, без предположения о нормальности.

$x<Q_1-1.5\cdot IQR\quad\text{или}\quad x>Q_3+1.5\cdot IQR$

Коэффициент вариации

Коэффициент вариации показывает относительный разброс: стандартное отклонение делят на среднее и выражают результат в процентах.

$CV=\frac{s}{\bar{x}}\cdot100\%$

Z-оценка

Z-оценка показывает, на сколько стандартных отклонений наблюдение находится выше или ниже среднего значения, и помогает сравнивать разные шкалы.

$z=\frac{x-\bar{x}}{s}$

DAU to MAU ratio

The DAU/MAU ratio shows what share of monthly active users visit your product on an average day.

$\text{DAU/MAU} = \frac{\text{DAU}}{\text{MAU}}\cdot 100\%$

Cohort retention rate

Retention rate measures what percentage of a cohort remains active after a chosen period.

$\text{Retention} = \frac{N_{\text{active at end}}}{N_{\text{cohort start}}}\cdot 100\%$

Churn rate

Churn rate shows the proportion of users or customers that stop being active/paying during a period.

$\text{Churn} = \frac{N_{\text{churned}}}{N_{\text{period start}}}\cdot 100\%$

ARPU

ARPU is average revenue produced per active user in a period.

$\text{ARPU} = \frac{R}{\text{MAU}}$

ARPPU

ARPPU indicates average revenue for paying users only.

$\text{ARPPU} = \frac{R}{N_{\text{paying}}}$

Basic LTV

A practical LTV estimate multiplies average revenue per user by gross margin and average customer life.

$\text{LTV} \approx \text{ARPU} \cdot \text{Gross Margin} \cdot L$

Customer Acquisition Cost (CAC)

CAC shows how much marketing and sales spending is needed to acquire one new customer.

$\text{CAC} = \frac{C_{\text{marketing}} + C_{\text{sales}}}{N_{\text{new customers}}}$

Conversion funnel step rate

Step conversion shows how efficiently users move from one funnel stage to the next.

$\text{CR}_{i\to i+1}=\frac{U_{i+1}}{U_i}\cdot100\%$

Activation rate

Activation rate tracks how many new registrants reach a predefined value moment.

$\text{Activation Rate} = \frac{N_{\text{activated}}}{N_{\text{registered}}}\cdot100\%$