17 формул
Описательная статистика
Среднее, медиана, дисперсия, стандартное отклонение и распределения.
Предмет
Формулы для статистики, A/B-тестов, прогнозирования, продуктовых метрик, когорт и качества данных.
Раздел
17 формул
Среднее, медиана, дисперсия, стандартное отклонение и распределения.
13 формул
Конверсии, доверительные интервалы, мощность теста и размер выборки.
13 формул
Retention, churn, LTV, CAC, ARPU, ARPPU и воронки.
13 формул
Темпы роста, скользящие средние, сезонность и ошибки прогноза.
Раздел
5 формул
линейная регрессия, коэффициенты, R-squared
8 формул
precision, recall, F1, ROC-AUC
69 формул
Показаны 1-60 из 69. Остальные формулы доступны на соседних страницах раздела.
Conversion rate (конверсия): формула \hat{p}=\frac{X}{n} помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.
Относительный uplift (относительный прирост): формула \text{uplift}_{\%}=\frac{\hat p_B-\hat p_A}{\hat p_A}\cdot 100\% помогает требуется требуется требуется требуется требуется требуется требуется посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверк...
Абсолютный uplift (разница конверсий): формула \Delta = \hat p_B-\hat p_A помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.
Стандартная ошибка доли: формула SE(\hat p)=\sqrt{\frac{\hat p(1-\hat p)}{n}} помогает требуется требуется требуется требуется требуется требуется требуется посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.
Z-статистика для двух долей: формула z = \frac{\hat p_B-\hat p_A}{SE_{\Delta}} помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.
p-value без калькулятора: ориентиры по z: формула p \approx 2\,(1-\Phi(|z|)),\; \text{а без калькулятора: }|z|\approx1{,}64\Rightarrow p\approx0{,}10,\;1{,}96\Rightarrow0{,}05,\;2{,}58\Rightarrow0{,}01 помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, оши...
Доверительный интервал разницы конверсий: формула (\hat p_B-\hat p_A)\pm z_{1-\alpha/2}\cdot SE_{\Delta} помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.
Минимальный размер выборки для двух долей (базовый): формула n \approx \frac{(z_{1-\alpha/2}+z_{1-\beta})^2\left[p_A(1-p_A)+p_B(1-p_B)\right]}{MDE^2},\; n_A=n_B=n помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть условия, пример, ошибки и проверка результата.
MDE в статистике и A/B-тестах: формула MDE = (z_{1-\alpha/2}+z_{1-\beta})\sqrt{\frac{\hat p_A(1-\hat p_A)}{n_A}+\frac{\hat p_B(1-\hat p_B)}{n_B}} помогает требуется требуется требуется требуется требуется требуется требуется посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть услови...
Мощность теста (power) для разности долей — концепт: формула \text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right) помогает посчитать метрику или статистическую проверку по данным эксперимента. В тексте есть ус...
Среднее арифметическое показывает типичный уровень числового показателя как сумму всех значений, деленную на количество наблюдений.
Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.
Мода — это значение, которое встречается в наборе данных чаще всего. Она полезна для категорий, популярных вариантов и повторяющихся числовых значений.
Размах вариации показывает расстояние между максимальным и минимальным значением набора данных. Это самый простой показатель разброса.
Выборочная дисперсия с делением на n−1 оценивает дисперсию генеральной совокупности по выборке и измеряет средний квадрат отклонений от выборочного среднего.
Выборочное стандартное отклонение показывает типичный масштаб отклонения значений от среднего в исходных единицах показателя.
Межквартильный размах, или IQR, показывает ширину средней половины данных: это разница между третьим и первым квартилем. Формула: IQR = Q3 - Q1.
Правило 1,5 IQR помечает возможные выбросы: значение считают необычным, если оно меньше Q1 - 1,5*IQR или больше Q3 + 1,5*IQR. Это правило для первичной проверки, а не автоматического удаления строк.
Коэффициент вариации показывает относительный разброс: стандартное отклонение делят на среднее и выражают результат в процентах.
Z-оценка показывает, на сколько стандартных отклонений наблюдение находится выше или ниже среднего значения, и помогает сравнивать разные шкалы.
Отношение DAU к MAU: формула \text{DAU/MAU} = \frac{\text{DAU}}{\text{MAU}}\cdot 100\% помогает посчитать продуктовую метрику на согласованной базе событий. В тексте есть условия, пример, ошибки и проверка результата.
Когортное удержание клиентов: формула \text{Retention} = \frac{N_{\text{active at end}}}{N_{\text{cohort start}}}\cdot 100\% помогает требуется требуется требуется требуется требуется требуется важно перевести сырые счетчики продукта в процент, который можно сравнивать по периодам, когортам или каналам. В тексте е...
Churn rate: отток клиентов: формула \text{Churn} = \frac{N_{\text{churned}}}{N_{\text{period start}}}\cdot 100\% помогает посчитать продуктовую метрику на согласованной базе событий. В тексте есть условия, пример, ошибки и проверка результата.
ARPU: средняя выручка на клиента: формула \text{ARPU} = \frac{R}{\text{MAU}} помогает посчитать продуктовую метрику на согласованной базе событий. В тексте есть условия, пример, ошибки и проверка результата.
ARPPU: выручка на платящего клиента: формула \text{ARPPU} = \frac{R}{N_{\text{paying}}} помогает посчитать продуктовую метрику на согласованной базе событий. В тексте есть условия, пример, ошибки и проверка результата.
Базовый LTV клиента: формула \text{LTV} \approx \text{ARPU} \cdot \text{Gross Margin} \cdot L помогает требуется требуется требуется требуется требуется требуется важно перевести сырые счетчики продукта в процент, который можно сравнивать по периодам, когортам или каналам. В тексте есть условия, пример, ошибки и п...
CAC: стоимость привлечения клиента: формула \text{CAC} = \frac{C_{\text{маркетинговой аналитики}} + C_{\text{sales}}}{N_{\text{new customers}}} помогает посчитать продуктовую метрику на согласованной базе событий. В тексте есть условия, пример, ошибки и проверка результата.
Конверсия шага воронки: формула \text{CR}_{i\to i+1}=\frac{U_{i+1}}{U_i}\cdot100\% помогает требуется требуется требуется требуется требуется требуется важно перевести сырые счетчики продукта в процент, который можно сравнивать по периодам, когортам или каналам. В тексте есть условия, пример, ошибки и проверка рез...
Activation rate: доля активированных клиентов: формула \text{Activation Rate} = \frac{N_{\text{activated}}}{N_{\text{registered}}}\cdot100\% помогает посчитать продуктовую метрику на согласованной базе событий. В тексте есть условия, пример, ошибки и проверка результата.
MAE усредняет модули отклонений факта от прогноза и показывает типичный промах в исходных единицах. Метрика удобна для понятного сравнения моделей на одном горизонте, но не усиливает крупные ошибки.
MSE усредняет квадраты ошибок прогноза, поэтому крупные промахи влияют на итог сильнее мелких. Результат измеряется в квадрате исходных единиц и подходит для сравнения моделей на одной проверочной выборке.
RMSE - корень из MSE: он сохраняет штраф за крупные ошибки, но возвращает результат в исходные единицы. Метрика показывает типичный размер промаха модели на фиксированном горизонте и наборе фактов.
MAPE показывает среднюю абсолютную ошибку прогноза в процентах от фактических значений. Метрика удобна для рядов разного масштаба, но требует аккуратности при нулевых и очень малых фактах.
WAPE делит суммарную абсолютную ошибку на общий фактический объем. Метрика показывает долю промаха в процентах от всего спроса или оборота и сильнее отражает строки с большим весом.
SMA заменяет текущее значение средним по последним k наблюдениям. Это простая база для сглаживания шума и краткосрочного прогноза, но она запаздывает на трендах и резких разворотах.
Экспоненциальное сглаживание обновляет прогноз как смесь последнего факта и прошлого сглаженного уровня. Коэффициент α задает, насколько быстро модель реагирует на свежие изменения ряда.
OLS подбирает коэффициенты линейной регрессии так, чтобы сумма квадратов остатков была минимальной. Формула нужна, чтобы оценить связь факторов с числовой целью и получить воспроизводимый линейный прогноз.
R² показывает, какая доля разброса целевой переменной объяснена регрессионной моделью по сравнению с ее средним уровнем. Метрика полезна для одной выборки и спецификации, но сама по себе не доказывает причинность.
Стандартная ошибка регрессии оценивает типичный разброс остатков вокруг линии модели в единицах целевой переменной. Ее используют рядом с R², чтобы видеть не только долю объясненной вариации, но и размер промаха.
t-статистика делит коэффициент регрессии на его стандартную ошибку и показывает, насколько оценка далека от нуля в масштабе неопределенности. Ее читают с учетом степеней свободы, p-value и спецификации модели.
Логистическая функция переводит линейный скор в вероятность от 0 до 1 по S-образной кривой. В аналитике бинарных событий она связывает факторы с шансом наступления класса и помогает выбрать порог решения.
Accuracy - доля верных ответов среди всех объектов. Метрика быстро показывает общий уровень классификации, но хорошо читается только при сопоставимых классах и близкой цене ложных тревог и пропусков.
Precision показывает, какая часть объектов, помеченных моделью как положительные, действительно положительна. Метрика важна, когда ложные срабатывания дороги: модерация, лиды, диагностика, ручная проверка.
Recall показывает, какую долю настоящих положительных объектов модель нашла. Метрика важна, когда опаснее пропустить нужный случай, чем получить лишнее срабатывание: риск, дефекты, заявки.
F1 объединяет precision и recall через гармоническое среднее. Метрика полезна, когда нужно одним числом балансировать ложные срабатывания и пропуски, но true negative в расчет не входит.
Specificity показывает, какую долю настоящих отрицательных объектов модель оставила отрицательными. Метрика дополняет recall и важна там, где надо ограничить ложные тревоги при фиксированном положительном классе.
ROC AUC оценивает ранжирование: насколько часто положительный объект получает скор выше отрицательного. Метрика не зависит от одного порога, но требует корректных скорингов и выбранного положительного класса.
Lift показывает, во сколько раз выбранный моделью сегмент богаче целевыми объектами, чем вся база. Метрика полезна для CRM, маркетинга и скоринга, где важен верхний процент списка, а не общий порог.
Матрица ошибок раскладывает бинарные решения на TP, TN, FP и FN. Это исходная таблица для accuracy, precision, recall, specificity и F1, поэтому сначала проверяют класс, порог и сумму ячеек.
Размер выборки для одной доли: формула n=\frac{z^2p(1-p)}{E^2} помогает величины n, z, p, E заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.
Размер выборки для MDE двух долей: формула n=\frac{2(z_\alpha+z_\beta)^2p(1-p)}{\Delta^2} помогает требуется требуется требуется требуется требуется требуется понять, хватит ли трафика для обнаружения минимального эффекта. В тексте есть условия, пример, ошибки и проверка результата.
z-тест для сравнения двух долей: формула z=\frac{p_1-p_2}{\sqrt{p(1-p)(1/n_1+1/n_2)}} помогает величины z, p_1, p_2, p заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.
t-тест для сравнения двух средних: формула t=\frac{\bar x_1-\bar x_2}{s_p\sqrt{1/n_1+1/n_2}} помогает величины t, x_1, x_2, s_p заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.
t-тест Уэлча для средних с разными дисперсиями: формула t=\frac{\bar x_1-\bar x_2}{\sqrt{s_1^2/n_1+s_2^2/n_2}} помогает величины t, x_1, x_2, s_1 заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.
Критерий хи-квадрат независимости: формула \chi^2=\sum\frac{(O-E)^2}{E} помогает величины chi, O, E заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.
Доверительный интервал для доли: формула \hat p\pm z\sqrt{\frac{\hat p(1-\hat p)}{n}} помогает величины p, z, n заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.
Доверительный интервал для разности долей: формула (p_1-p_2)\pm z\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}} помогает требуется требуется требуется требуется требуется требуется оценить диапазон возможного uplift между группами. В тексте есть условия, пример, ошибки и проверка результата.
Размер эффекта Cohen's d для двух средних: формула d=\frac{\bar x_1-\bar x_2}{s_p} помогает величины d, x_1, x_2, s_p заданы для одной и той же ситуации, периода или объекта. В тексте есть условия, пример, ошибки и проверка результата.
Коэффициент V Крамера для таблицы сопряженности: формула V=\sqrt{\frac{\chi^2}{n(k-1)}} помогает требуется требуется требуется требуется требуется требуется оценить силу связи в категориальной таблице. В тексте есть условия, пример, ошибки и проверка результата.
Precision, recall и F1 для классификации: формула F_1=\frac{2PR}{P+R} помогает требуется требуется требуется требуется требуется важны и точность, и полнота. В тексте есть условия, пример, ошибки и проверка результата.