Аналитика / Описательная статистика

Z-оценка

Z-оценка показывает, на сколько стандартных отклонений наблюдение находится выше или ниже среднего значения, и помогает сравнивать разные шкалы.

Опубликовано: Обновлено:

Формула

$$z=\frac{x-\bar{x}}{s}$$
Стандартизированная шкала Положение значения относительно среднего

На оси отмечены среднее 0, значения -1, +1, +2 стандартных отклонения и отдельная точка наблюдения.

Z-оценка измеряет расстояние от среднего в стандартных отклонениях.

Обозначения

$z$
стандартизированная оценка, безразмерная величина
$x$
проверяемое значение, единица исходного показателя
$\bar{x}$
среднее значение выборки, единица исходного показателя
$s$
выборочное стандартное отклонение, единица исходного показателя

Условия применения

  • Среднее и стандартное отклонение рассчитаны по сопоставимой группе данных.
  • Стандартное отклонение больше нуля.
  • Для вероятностной интерпретации через нормальное распределение нужно дополнительно проверять форму распределения.

Ограничения

  • Z-оценка чувствительна к выбросам, потому что использует среднее и стандартное отклонение.
  • Большой |z| не всегда означает ошибку: это может быть реальное редкое наблюдение.
  • Если распределение сильно скошено, интерпретация z как редкости по нормальному распределению может быть неверной.

Подробное объяснение

Z-оценка вычитает из значения среднее и делит результат на стандартное отклонение. Вычитание среднего переносит центр данных в ноль. Деление на стандартное отклонение переводит расстояние в единицы разброса. Поэтому z = 0 означает значение на уровне среднего, z = 1 - на одно стандартное отклонение выше среднего, z = -2 - на два стандартных отклонения ниже.

Стандартизация полезна, когда показатели имеют разные единицы. Например, можно сравнить, насколько необычен чек в рублях и время доставки в минутах, если оба переведены в z-оценки относительно своих распределений.

В нормальном распределении z имеет сильную вероятностную интерпретацию, но в реальных бизнес-данных распределения часто асимметричны. Поэтому z-оценку лучше рассматривать как индикатор относительной удаленности, а не как окончательный статистический приговор.

Хорошая практика - считать z внутри релевантной группы. Время доставки по крупному городу и небольшому региону может иметь разные средние и разбросы. Если объединить их без сегментации, z-оценки могут подсвечивать не аномалии, а различия между группами.

Как пользоваться формулой

  1. Выберите группу данных, относительно которой нужно оценивать значение.
  2. Рассчитайте среднее по этой группе.
  3. Рассчитайте стандартное отклонение.
  4. Вычтите среднее из проверяемого значения.
  5. Разделите результат на стандартное отклонение и интерпретируйте знак и модуль z.

Историческая справка

Z-оценка связана с развитием стандартизации данных и нормального распределения. Когда разные измерения имеют разные единицы и масштабы, их трудно сравнивать напрямую. Перевод в расстояние от среднего в единицах стандартного отклонения дал общий язык для статистики, психометрии, контроля качества и анализа экспериментов. В современной аналитике z-оценки используются для поиска необычных значений, нормализации признаков и объяснения положения наблюдения внутри группы. Но с ростом практики анализа реальных данных стало ясно, что стандартизация требует проверки распределения и сегмента, иначе аккуратная формула может дать поверхностный вывод. Поэтому z-оценку обычно сопровождают графиком и описанием базовой группы.

Историческая линия формулы

Z-оценка не имеет одного прикладного автора. Она выросла из стандартизации нормального распределения, теории ошибок и статистической практики сравнения наблюдений на разных шкалах. В аналитике это базовый инструмент относительной оценки положения значения.

Пример

Среднее время ответа поддержки равно 10 минут, стандартное отклонение 2 минуты. Для обращения с временем 16 минут z = (16 - 10) / 2 = 3. Это означает, что обращение находится на 3 стандартных отклонения выше среднего. Для процесса поддержки это может быть сигналом необычно долгой обработки. Но перед выводом нужно проверить распределение: если данные сильно скошены, z = 3 не обязательно имеет ту же интерпретацию, что в нормальном распределении. Также нужно понять контекст: сложное обращение, сбой, новый сотрудник или ошибка записи времени.

Частая ошибка

Частая ошибка - использовать z-оценку как автоматическое правило удаления строк. Высокое значение может быть важным реальным событием. Вторая ошибка - считать z при s = 0, когда все значения одинаковые и деление невозможно. Третья ошибка - сравнивать z-оценки, рассчитанные по разным базовым группам, без пояснения. Еще одна ошибка - использовать среднее и стандартное отклонение по всей базе, когда корректнее стандартизировать внутри сегмента, например по региону или типу клиента.

Практика

Задачи с решением

Z-оценка выше среднего

Условие. Среднее 50, стандартное отклонение 10, значение 70. Найдите z.

Решение. z = (70 - 50) / 10 = 2. Значение на два стандартных отклонения выше среднего.

Ответ. z = 2

Z-оценка ниже среднего

Условие. Среднее время 12 минут, стандартное отклонение 3 минуты, наблюдение 6 минут. Найдите z.

Решение. z = (6 - 12) / 3 = -2. Наблюдение на два стандартных отклонения ниже среднего.

Ответ. z = -2

Дополнительные источники

  • OpenStax Introductory Statistics, раздел z-scores and standard normal distribution
  • NIST/SEMATECH e-Handbook of Statistical Methods, разделы о standardized values
  • OpenStax Statistics, разделы о стандартном отклонении и z-оценках

Связанные формулы

Аналитика

Выборочное стандартное отклонение

$s=\sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}$

Выборочное стандартное отклонение показывает типичный масштаб отклонения значений от среднего в исходных единицах показателя.

Аналитика

Среднее арифметическое

$\bar{x}=\frac{x_1+x_2+\dots+x_n}{n}$

Среднее арифметическое показывает типичный уровень числового показателя как сумму всех значений, деленную на количество наблюдений.

Аналитика

Правило выбросов по IQR

$x<Q_1-1.5\cdot IQR\quad\text{или}\quad x>Q_3+1.5\cdot IQR$

Правило 1,5 IQR помечает значения как возможные выбросы, если они лежат ниже Q1−1,5·IQR или выше Q3+1,5·IQR, без предположения о нормальности.