Предмет

Аналитика

Формулы для статистики, A/B-тестов, прогнозирования, продуктовых метрик, когорт и качества данных.

Раздел

Основные разделы

13 формул

A/B-тесты

Конверсии, доверительные интервалы, мощность теста и размер выборки.

13 формул

Прогнозирование

Темпы роста, скользящие средние, сезонность и ошибки прогноза.

Раздел

Прогнозирование И Модели

69 формул

Все формулы раздела

Показаны 1-60 из 69. Остальные формулы доступны на соседних страницах раздела.

Conversion rate (конверсия)

Conversion rate (конверсия): формула \hat{p}=\frac{X}{n} помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.

$\hat{p}=\frac{X}{n}$

Относительный uplift (относительный прирост)

Относительный uplift (относительный прирост): формула \text{uplift}_{\%}=\frac{\hat p_B-\hat p_A}{\hat p_A}\cdot 100\% помогает требуется требуется требуется требуется требуется требуется требуется посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверк...

$\text{uplift}_{\%}=\frac{\hat p_B-\hat p_A}{\hat p_A}\cdot 100\%$

Абсолютный uplift (разница конверсий)

Абсолютный uplift (разница конверсий): формула \Delta = \hat p_B-\hat p_A помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.

$\Delta = \hat p_B-\hat p_A$

Стандартная ошибка доли

Стандартная ошибка доли: формула SE(\hat p)=\sqrt{\frac{\hat p(1-\hat p)}{n}} помогает требуется требуется требуется требуется требуется требуется требуется посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.

$SE(\hat p)=\sqrt{\frac{\hat p(1-\hat p)}{n}}$

Z-статистика для двух долей

Z-статистика для двух долей: формула z = \frac{\hat p_B-\hat p_A}{SE_{\Delta}} помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.

$z = \frac{\hat p_B-\hat p_A}{SE_{\Delta}}$

p-value без калькулятора: ориентиры по z

p-value без калькулятора: ориентиры по z: формула p \approx 2\,(1-\Phi(|z|)),\; \text{а без калькулятора: }|z|\approx1{,}64\Rightarrow p\approx0{,}10,\;1{,}96\Rightarrow0{,}05,\;2{,}58\Rightarrow0{,}01 помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, оши...

$p \approx 2\,(1-\Phi(|z|)),\; \text{а без калькулятора: }|z|\approx1{,}64\Rightarrow p\approx0{,}10,\;1{,}96\Rightarrow0{,}05,\;2{,}58\Rightarrow0{,}01$

Доверительный интервал разницы конверсий

Доверительный интервал разницы конверсий: формула (\hat p_B-\hat p_A)\pm z_{1-\alpha/2}\cdot SE_{\Delta} помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.

$(\hat p_B-\hat p_A)\pm z_{1-\alpha/2}\cdot SE_{\Delta}$

Минимальный размер выборки для двух долей (базовый)

Минимальный размер выборки для двух долей (базовый): формула n \approx \frac{(z_{1-\alpha/2}+z_{1-\beta})^2\left[p_A(1-p_A)+p_B(1-p_B)\right]}{MDE^2},\; n_A=n_B=n помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.

$n \approx \frac{(z_{1-\alpha/2}+z_{1-\beta})^2\left[p_A(1-p_A)+p_B(1-p_B)\right]}{MDE^2},\; n_A=n_B=n$

MDE в статистике и A/B-тестах

MDE в статистике и A/B-тестах: формула MDE = (z_{1-\alpha/2}+z_{1-\beta})\sqrt{\frac{\hat p_A(1-\hat p_A)}{n_A}+\frac{\hat p_B(1-\hat p_B)}{n_B}} помогает требуется требуется требуется требуется требуется требуется требуется посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть услови...

$MDE = (z_{1-\alpha/2}+z_{1-\beta})\sqrt{\frac{\hat p_A(1-\hat p_A)}{n_A}+\frac{\hat p_B(1-\hat p_B)}{n_B}}$

Мощность теста (power) для разности долей — концепт

Мощность теста (power) для разности долей — концепт: формула \text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right) помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть ус...

$\text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right)$

Среднее арифметическое

Среднее арифметическое показывает типичный уровень числового показателя как сумму всех значений, деленную на количество наблюдений.

$\bar{x}=\frac{x_1+x_2+\dots+x_n}{n}$

Медиана

Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.

$Me=x_{(\frac{n+1}{2})}\quad\text{для нечетного }n$

Мода

Мода — это значение, которое встречается в наборе данных чаще всего. Она полезна для категорий, популярных вариантов и повторяющихся числовых значений.

$Mo=\text{значение с максимальной частотой}$

Размах вариации

Размах вариации показывает расстояние между максимальным и минимальным значением набора данных. Это самый простой показатель разброса.

$R=x_{max}-x_{min}$

Выборочная дисперсия

Выборочная дисперсия с делением на n−1 оценивает дисперсию генеральной совокупности по выборке и измеряет средний квадрат отклонений от выборочного среднего.

$s^2=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}$

Выборочное стандартное отклонение

Выборочное стандартное отклонение показывает типичный масштаб отклонения значений от среднего в исходных единицах показателя.

$s=\sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}$

Квартили и межквартильный размах

Межквартильный размах, или IQR, показывает ширину средней половины данных: это разница между третьим и первым квартилем. Формула: IQR = Q3 - Q1.

$IQR=Q_3-Q_1$

Правило выбросов по IQR

Правило 1,5 IQR помечает возможные выбросы: значение считают необычным, если оно меньше Q1 - 1,5*IQR или больше Q3 + 1,5*IQR. Это правило для первичной проверки, а не автоматического удаления строк.

$x<Q_1-1.5\cdot IQR\quad\text{или}\quad x>Q_3+1.5\cdot IQR$

Коэффициент вариации

Коэффициент вариации показывает относительный разброс: стандартное отклонение делят на среднее и выражают результат в процентах.

$CV=\frac{s}{\bar{x}}\cdot100\%$

Z-оценка

Z-оценка показывает, на сколько стандартных отклонений наблюдение находится выше или ниже среднего значения, и помогает сравнивать разные шкалы.

$z=\frac{x-\bar{x}}{s}$

Отношение DAU к MAU

Отношение DAU к MAU: формула \text{DAU/MAU} = \frac{\text{DAU}}{\text{MAU}}\cdot 100\% помогает посчитать продуктовую метрику на согласованной базе событий. В тексте есть условия, пример, ошибки и проверка результата.

$\text{DAU/MAU} = \frac{\text{DAU}}{\text{MAU}}\cdot 100\%$

Когортное удержание клиентов

Когортное удержание клиентов: формула \text{Retention} = \frac{N_{\text{active at end}}}{N_{\text{cohort start}}}\cdot 100\% помогает требуется требуется требуется требуется требуется требуется важно перевести сырые счетчики продукта в процент, который можно сравнивать по периодам, когортам или каналам. В тексте е...

$\text{Retention} = \frac{N_{\text{active at end}}}{N_{\text{cohort start}}}\cdot 100\%$

Churn rate: отток клиентов

Churn rate: отток клиентов: формула \text{Churn} = \frac{N_{\text{churned}}}{N_{\text{period start}}}\cdot 100\% помогает посчитать продуктовую метрику на согласованной базе событий. В тексте есть условия, пример, ошибки и проверка результата.

$\text{Churn} = \frac{N_{\text{churned}}}{N_{\text{period start}}}\cdot 100\%$

ARPU: средняя выручка на клиента

ARPU: средняя выручка на клиента: формула \text{ARPU} = \frac{R}{\text{MAU}} помогает посчитать продуктовую метрику на согласованной базе событий. В тексте есть условия, пример, ошибки и проверка результата.

$\text{ARPU} = \frac{R}{\text{MAU}}$

ARPPU: выручка на платящего клиента

ARPPU: выручка на платящего клиента: формула \text{ARPPU} = \frac{R}{N_{\text{paying}}} помогает посчитать продуктовую метрику на согласованной базе событий. В тексте есть условия, пример, ошибки и проверка результата.

$\text{ARPPU} = \frac{R}{N_{\text{paying}}}$

Базовый LTV клиента

Базовый LTV клиента: формула \text{LTV} \approx \text{ARPU} \cdot \text{Gross Margin} \cdot L помогает требуется требуется требуется требуется требуется требуется важно перевести сырые счетчики продукта в процент, который можно сравнивать по периодам, когортам или каналам. В тексте есть условия, пример, ошибки и п...

$\text{LTV} \approx \text{ARPU} \cdot \text{Gross Margin} \cdot L$

CAC: стоимость привлечения клиента

CAC: стоимость привлечения клиента: формула \text{CAC} = \frac{C_{\text{маркетинговой аналитики}} + C_{\text{sales}}}{N_{\text{new customers}}} помогает посчитать продуктовую метрику на согласованной базе событий. В тексте есть условия, пример, ошибки и проверка результата.

$\text{CAC} = \frac{C_{\text{marketing}} + C_{\text{sales}}}{N_{\text{new customers}}}$

Конверсия шага воронки

Конверсия шага воронки: формула \text{CR}_{i\to i+1}=\frac{U_{i+1}}{U_i}\cdot100\% помогает требуется требуется требуется требуется требуется требуется важно перевести сырые счетчики продукта в процент, который можно сравнивать по периодам, когортам или каналам. В тексте есть условия, пример, ошибки и проверка рез...

$\text{CR}_{i\to i+1}=\frac{U_{i+1}}{U_i}\cdot100\%$

Activation rate: доля активированных клиентов

Activation rate: доля активированных клиентов: формула \text{Activation Rate} = \frac{N_{\text{activated}}}{N_{\text{registered}}}\cdot100\% помогает посчитать продуктовую метрику на согласованной базе событий. В тексте есть условия, пример, ошибки и проверка результата.

$\text{Activation Rate} = \frac{N_{\text{activated}}}{N_{\text{registered}}}\cdot100\%$

Средняя абсолютная ошибка MAE

MAE усредняет модули отклонений факта от прогноза и показывает типичный промах в исходных единицах. Метрика удобна для понятного сравнения моделей на одном горизонте, но не усиливает крупные ошибки.

$\mathrm{MAE}=\frac{1}{n}\sum_{i=1}^{n}|y_i-\hat{y}_i|$

Средняя квадратичная ошибка MSE

MSE усредняет квадраты ошибок прогноза, поэтому крупные промахи влияют на итог сильнее мелких. Результат измеряется в квадрате исходных единиц и подходит для сравнения моделей на одной проверочной выборке.

$\mathrm{MSE}=\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2$

Корень из среднеквадратичной ошибки RMSE

RMSE - корень из MSE: он сохраняет штраф за крупные ошибки, но возвращает результат в исходные единицы. Метрика показывает типичный размер промаха модели на фиксированном горизонте и наборе фактов.

$\mathrm{RMSE}=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}$

Средняя абсолютная процентная ошибка MAPE

MAPE показывает среднюю абсолютную ошибку прогноза в процентах от фактических значений. Метрика удобна для рядов разного масштаба, но требует аккуратности при нулевых и очень малых фактах.

$\mathrm{MAPE}=\frac{100\%}{n}\sum_{i=1}^{n}\left|\frac{y_i-\hat{y}_i}{y_i}\right|$

Взвешенная абсолютная процентная ошибка WAPE

WAPE делит суммарную абсолютную ошибку на общий фактический объем. Метрика показывает долю промаха в процентах от всего спроса или оборота и сильнее отражает строки с большим весом.

$\mathrm{WAPE}=\frac{\sum_{i=1}^{n}|y_i-\hat{y}_i|}{\sum_{i=1}^{n}|y_i|}\cdot100\%$

Простое скользящее среднее

SMA заменяет текущее значение средним по последним k наблюдениям. Это простая база для сглаживания шума и краткосрочного прогноза, но она запаздывает на трендах и резких разворотах.

$\mathrm{SMA}_t=\frac{x_{t-k+1}+x_{t-k+2}+\ldots+x_t}{k}$

Экспоненциальное сглаживание прогноза

Экспоненциальное сглаживание обновляет прогноз как смесь последнего факта и прошлого сглаженного уровня. Коэффициент α задает, насколько быстро модель реагирует на свежие изменения ряда.

$\hat{y}_{t+1}=\alpha y_t+(1-\alpha)\hat{y}_t$

Линейная регрессия по методу наименьших квадратов

OLS подбирает коэффициенты линейной регрессии так, чтобы сумма квадратов остатков была минимальной. Формула нужна, чтобы оценить связь факторов с числовой целью и получить воспроизводимый линейный прогноз.

$\hat{\beta}_1=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2},\quad \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}$

Коэффициент детерминации R-squared

R² показывает, какая доля разброса целевой переменной объяснена регрессионной моделью по сравнению с ее средним уровнем. Метрика полезна для одной выборки и спецификации, но сама по себе не доказывает причинность.

$R^2=1-\frac{SS_{res}}{SS_{tot}}$

Стандартная ошибка регрессии

Стандартная ошибка регрессии оценивает типичный разброс остатков вокруг линии модели в единицах целевой переменной. Ее используют рядом с R², чтобы видеть не только долю объясненной вариации, но и размер промаха.

$s=\sqrt{\frac{SS_{res}}{n-p}}$

t-статистика коэффициента регрессии

t-статистика делит коэффициент регрессии на его стандартную ошибку и показывает, насколько оценка далека от нуля в масштабе неопределенности. Ее читают с учетом степеней свободы, p-value и спецификации модели.

$t=\frac{\hat{\beta}_j-\beta_{j,0}}{SE(\hat{\beta}_j)}$

Логистическая функция вероятности

Логистическая функция переводит линейный скор в вероятность от 0 до 1 по S-образной кривой. В аналитике бинарных событий она связывает факторы с шансом наступления класса и помогает выбрать порог решения.

$p=\frac{1}{1+e^{-z}},\quad z=\beta_0+\beta_1x_1+\ldots+\beta_kx_k}$

Accuracy как доля правильных классификаций

Accuracy - доля верных ответов среди всех объектов. Метрика быстро показывает общий уровень классификации, но хорошо читается только при сопоставимых классах и близкой цене ложных тревог и пропусков.

$\mathrm{Accuracy}=\frac{TP+TN}{TP+TN+FP+FN}$

Precision для положительного класса

Precision показывает, какая часть объектов, помеченных моделью как положительные, действительно положительна. Метрика важна, когда ложные срабатывания дороги: модерация, лиды, диагностика, ручная проверка.

$\mathrm{Precision}=\frac{TP}{TP+FP}$

Recall для положительного класса

Recall показывает, какую долю настоящих положительных объектов модель нашла. Метрика важна, когда опаснее пропустить нужный случай, чем получить лишнее срабатывание: риск, дефекты, заявки.

$\mathrm{Recall}=\frac{TP}{TP+FN}$

F1-мера классификации для баланса precision и recall

F1 объединяет precision и recall через гармоническое среднее. Метрика полезна, когда нужно одним числом балансировать ложные срабатывания и пропуски, но true negative в расчет не входит.

$F_1=\frac{2\cdot Precision\cdot Recall}{Precision+Recall}$

Specificity классификатора

Specificity показывает, какую долю настоящих отрицательных объектов модель оставила отрицательными. Метрика дополняет recall и важна там, где надо ограничить ложные тревоги при фиксированном положительном классе.

$\mathrm{Specificity}=\frac{TN}{TN+FP}$

ROC AUC через пары объектов

ROC AUC оценивает ранжирование: насколько часто положительный объект получает скор выше отрицательного. Метрика не зависит от одного порога, но требует корректных скорингов и выбранного положительного класса.

$\mathrm{AUC}=\frac{N_{concordant}+0.5N_{tied}}{N_{positive}N_{negative}}$

Lift модели классификации

Lift показывает, во сколько раз выбранный моделью сегмент богаче целевыми объектами, чем вся база. Метрика полезна для CRM, маркетинга и скоринга, где важен верхний процент списка, а не общий порог.

$\mathrm{Lift}=\frac{\text{response rate in selected group}}{\text{overall response rate}}$

Матрица ошибок бинарной классификации

Матрица ошибок раскладывает бинарные решения на TP, TN, FP и FN. Это исходная таблица для accuracy, precision, recall, specificity и F1, поэтому сначала проверяют класс, порог и сумму ячеек.

$N=TP+TN+FP+FN$

Размер выборки для одной доли

Размер выборки для одной доли: формула n=\frac{z^2p(1-p)}{E^2} помогает величины n, z, p, E заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.

$n=\frac{z^2p(1-p)}{E^2}$

Размер выборки для MDE двух долей

Размер выборки для MDE двух долей: формула n=\frac{2(z_\alpha+z_\beta)^2p(1-p)}{\Delta^2} помогает требуется требуется требуется требуется требуется требуется понять, хватит ли трафика для обнаружения минимального эффекта. В тексте есть условия, пример, ошибки и проверка результата.

$n=\frac{2(z_\alpha+z_\beta)^2p(1-p)}{\Delta^2}$

z-тест для сравнения двух долей

z-тест для сравнения двух долей: формула z=\frac{p_1-p_2}{\sqrt{p(1-p)(1/n_1+1/n_2)}} помогает величины z, p_1, p_2, p заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.

$z=\frac{p_1-p_2}{\sqrt{p(1-p)(1/n_1+1/n_2)}}$

t-тест для сравнения двух средних

t-тест для сравнения двух средних: формула t=\frac{\bar x_1-\bar x_2}{s_p\sqrt{1/n_1+1/n_2}} помогает величины t, x_1, x_2, s_p заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.

$t=\frac{\bar x_1-\bar x_2}{s_p\sqrt{1/n_1+1/n_2}}$

t-тест Уэлча для средних с разными дисперсиями

t-тест Уэлча для средних с разными дисперсиями: формула t=\frac{\bar x_1-\bar x_2}{\sqrt{s_1^2/n_1+s_2^2/n_2}} помогает величины t, x_1, x_2, s_1 заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.

$t=\frac{\bar x_1-\bar x_2}{\sqrt{s_1^2/n_1+s_2^2/n_2}}$

Критерий хи-квадрат независимости

Критерий хи-квадрат независимости: формула \chi^2=\sum\frac{(O-E)^2}{E} помогает величины chi, O, E заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.

$\chi^2=\sum\frac{(O-E)^2}{E}$

Доверительный интервал для доли

Доверительный интервал для доли: формула \hat p\pm z\sqrt{\frac{\hat p(1-\hat p)}{n}} помогает величины p, z, n заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.

$\hat p\pm z\sqrt{\frac{\hat p(1-\hat p)}{n}}$

Доверительный интервал для разности долей

Доверительный интервал для разности долей: формула (p_1-p_2)\pm z\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}} помогает требуется требуется требуется требуется требуется требуется оценить диапазон возможного uplift между группами. В тексте есть условия, пример, ошибки и проверка результата.

$(p_1-p_2)\pm z\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}$

Размер эффекта Cohen's d для двух средних

Размер эффекта Cohen's d для двух средних: формула d=\frac{\bar x_1-\bar x_2}{s_p} помогает величины d, x_1, x_2, s_p заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.

$d=\frac{\bar x_1-\bar x_2}{s_p}$

Коэффициент V Крамера для таблицы сопряженности

Коэффициент V Крамера для таблицы сопряженности: формула V=\sqrt{\frac{\chi^2}{n(k-1)}} помогает требуется требуется требуется требуется требуется требуется оценить силу связи в категориальной таблице. В тексте есть условия, пример, ошибки и проверка результата.

$V=\sqrt{\frac{\chi^2}{n(k-1)}}$

Precision, recall и F1 для классификации

Precision, recall и F1 для классификации: формула F_1=\frac{2PR}{P+R} помогает требуется требуется требуется требуется требуется важны и точность, и полнота. В тексте есть условия, пример, ошибки и проверка результата.

$F_1=\frac{2PR}{P+R}$