Аналитика / Описательная статистика

Размах вариации

Размах вариации показывает расстояние между максимальным и минимальным значением набора данных. Это самый простой показатель разброса.

Опубликовано: Обновлено:

Формула

$$R=x_{max}-x_{min}$$
Линия диапазона Минимум, максимум и размах

На числовой линии отмечены минимум и максимум, расстояние между ними подписано как R.

Размах показывает полную ширину наблюдаемых значений.

Обозначения

$R$
размах вариации, единица исходного показателя
$x_{max}$
максимальное значение в наборе, единица исходного показателя
$x_{min}$
минимальное значение в наборе, единица исходного показателя

Условия применения

  • Данные числовые и измерены в одинаковых единицах.
  • Минимум и максимум являются реальными наблюдениями, а не ошибками ввода.
  • Размах используется как грубая оценка, а не единственный показатель вариативности.

Ограничения

  • Размах зависит только от двух крайних значений и игнорирует все остальные наблюдения.
  • Один выброс может резко увеличить размах.
  • Для сравнения стабильности групп лучше дополнительно смотреть стандартное отклонение, IQR или квантили.

Подробное объяснение

Размах является самым простым способом оценить разброс: он показывает полную ширину наблюдаемых данных от минимума до максимума. Если минимальный чек 500 рублей, а максимальный 5000 рублей, размах равен 4500 рублей.

Преимущество размаха - скорость и понятность. Его легко объяснить человеку без статистической подготовки. Он особенно полезен на этапе первичного контроля данных: слишком большой размах может указать на выброс, ошибку импорта или необычный случай.

Недостаток размаха в том, что он не знает ничего о середине данных. Наборы 1, 2, 3, 4, 100 и 1, 50, 51, 52, 100 имеют одинаковый размах 99, но выглядят совершенно по-разному. Поэтому размах редко используют один.

В аналитическом отчете размах хорошо работает вместе с минимумом, максимумом, медианой и квартилями. Тогда видно не только крайние границы, но и то, где находится основная масса данных. Если размах резко отличается между сегментами, это повод проверить качество данных и реальные различия процессов.

Как пользоваться формулой

  1. Проверьте, что все значения числовые и в одинаковых единицах.
  2. Найдите минимальное значение.
  3. Найдите максимальное значение.
  4. Вычтите минимум из максимума.
  5. Проверьте крайние значения на выбросы и ошибки ввода.

Историческая справка

Размах как показатель разброса появился из практической потребности видеть границы наблюдений. До сложных статистических расчетов минимум и максимум уже давали полезную информацию: самые низкие и самые высокие цены, температуры, размеры или результаты. В промышленном контроле, метеорологии, торговле и управлении запасами диапазон значений был быстрым способом заметить нестандартную ситуацию. Позже статистика предложила более устойчивые меры разброса, такие как дисперсия, стандартное отклонение и межквартильный размах. Но размах сохранился как простой диагностический показатель, особенно на первом экране анализа данных, где нужно быстро увидеть крайние границы и решить, требуется ли более глубокая проверка.

Историческая линия формулы

У размаха вариации нет одного автора. Это базовая описательная мера, основанная на сравнении максимального и минимального наблюдения. Исторически она связана с практикой учета диапазонов и ранним описанием распределений.

Пример

Время обработки пяти заявок: 8, 10, 9, 11 и 35 минут. Минимальное значение равно 8, максимальное равно 35. Размах R = 35 - 8 = 27 минут. Это быстро показывает, что между самой короткой и самой долгой заявкой большая разница. Но по одному размаху нельзя понять, что четыре заявки находятся в узком диапазоне 8-11 минут, а одна заявка длится 35 минут. Поэтому для такой выборки полезно дополнительно посчитать медиану и межквартильный размах. Размах подсвечивает проблему, но не описывает всю форму распределения.

Частая ошибка

Частая ошибка - воспринимать размах как устойчивую характеристику процесса. Если добавится один технический сбой, максимум вырастет, и размах резко изменится. Вторая ошибка - сравнивать размах групп разного размера без осторожности: в большой группе шанс увидеть экстремум выше. Третья ошибка - не проверять максимум и минимум на ошибки ввода, например лишний ноль или неправильную единицу измерения. Также нельзя по размаху делать вывод, что все значения равномерно распределены между минимумом и максимумом.

Практика

Задачи с решением

Размах оценок

Условие. Оценки качества: 3, 4, 5, 4, 2, 5. Найдите размах.

Решение. Минимум равен 2, максимум равен 5. Размах R = 5 - 2 = 3.

Ответ. 3

Размах времени

Условие. Время доставки: 22, 25, 24, 28 и 60 минут. Найдите размах и укажите риск.

Решение. Минимум 22, максимум 60. Размах 38 минут. Значение 60 может быть реальным редким случаем или ошибкой, его нужно проверить.

Ответ. 38 минут; максимум требует проверки

Дополнительные источники

  • OpenStax Introductory Statistics, раздел Measures of the Spread of the Data
  • OpenStax Contemporary Mathematics, раздел Descriptive Statistics
  • NIST/SEMATECH e-Handbook of Statistical Methods, разделы о exploratory data analysis

Связанные формулы

Аналитика

Квартили и межквартильный размах

$IQR=Q_3-Q_1$

Межквартильный размах показывает ширину средней половины данных: это разница между третьим и первым квартилем, устойчивее полного размаха.

Аналитика

Выборочное стандартное отклонение

$s=\sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}$

Выборочное стандартное отклонение показывает типичный масштаб отклонения значений от среднего в исходных единицах показателя.

Аналитика

Медиана

$Me=x_{(\frac{n+1}{2})}\quad\text{для нечетного }n$

Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.