Аналитика / Описательная статистика

Медиана

Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.

Опубликовано: Обновлено:

Формула

$$Me=x_{(\frac{n+1}{2})}\quad\text{для нечетного }n$$
Линия распределения Медиана в отсортированном ряду

Упорядоченные точки на линии; центральная точка выделена как медиана, крайний выброс расположен далеко справа.

Медиана показывает середину по позиции, поэтому устойчива к крайним значениям.

Обозначения

$Me$
медиана, единица исходного показателя
$x_{(i)}$
i-е значение после сортировки по возрастанию, единица исходного показателя
$n$
количество наблюдений, шт.

Условия применения

  • Значения можно упорядочить по возрастанию.
  • Для четного числа наблюдений медиана обычно равна среднему двух центральных значений.
  • Все наблюдения относятся к одной шкале и одной единице измерения.

Ограничения

  • Медиана устойчивее к выбросам, но не использует величину всех значений так подробно, как среднее.
  • Для маленьких выборок медиана может заметно меняться при добавлении одного наблюдения.
  • Если данные сгруппированы в интервалы, медиану приходится оценивать приближенно по распределению.

Подробное объяснение

Медиана отвечает на позиционный вопрос: где находится середина упорядоченного ряда. Если наблюдений нечетное число, есть одно центральное значение. Если наблюдений четное число, центральных значений два, и медиану обычно берут как их среднее.

В отличие от среднего, медиана почти не реагирует на величину крайних значений. Если максимальное значение увеличится с 120 до 300 минут, медиана в примере останется 21 минутой. Именно поэтому медиана полезна для скошенных распределений: доходы, цены недвижимости, время ожидания и чеки часто имеют длинный правый хвост.

Медиана не заменяет среднее, а отвечает на другой вопрос. Среднее связано с общей суммой, медиана - с типичной позицией. Если бизнесу важна суммарная выручка, средний чек полезен. Если важно понять типичного клиента, медианный чек часто честнее.

Хороший отчет может показывать оба показателя. Большая разница между средним и медианой является сигналом: распределение асимметрично, есть крупные значения или выбросы. Тогда стоит добавить квартили, IQR и график распределения.

Как пользоваться формулой

  1. Очистите данные от явных ошибок ввода, не удаляя реальные выбросы без причины.
  2. Отсортируйте значения по возрастанию.
  3. Посчитайте количество наблюдений n.
  4. Для нечетного n возьмите центральное значение.
  5. Для четного n найдите среднее двух центральных значений.

Историческая справка

Медиана стала важным статистическим показателем там, где среднее плохо описывало данные с сильной асимметрией. В демографии, экономике и социальной статистике медианные доходы, цены и возраста часто понятнее для широкой аудитории, чем средние значения. Причина практическая: распределения реальной жизни редко бывают идеально симметричными. Исторически позиционные меры вроде медианы развивались вместе с ранжированием наблюдений и таблицами распределений. В современной аналитике медиана особенно полезна для продуктовых метрик, времени ответа, чеков и зарплат, где один редкий экстремум может сделать среднее почти непохожим на опыт большинства пользователей.

Историческая линия формулы

У медианы нет одного автора. Это позиционная мера центра, возникшая в статистической практике ранжирования данных и анализа распределений. Ее корректно связывать с развитием описательной статистики и устойчивых показателей.

Пример

Есть семь значений времени доставки в минутах: 18, 22, 20, 19, 120, 21, 23. Сначала сортируем ряд: 18, 19, 20, 21, 22, 23, 120. Наблюдений 7, центральная позиция (7+1)/2 = 4. Медиана равна четвертому значению, то есть 21 минуте. Среднее при этом равно 243/7 ≈ 34,7 минуты, потому что одна доставка на 120 минут сильно сдвигает сумму. Для ответа на вопрос, как обычно доставляют заказы, медиана в этом примере полезнее среднего. Для контроля качества, наоборот, выброс 120 минут нельзя игнорировать: его нужно анализировать отдельно.

Частая ошибка

Частая ошибка - искать медиану без сортировки данных. Вторая ошибка - при четном числе наблюдений выбирать одно из двух центральных значений вместо среднего этих двух, если методика не говорит иначе. Третья ошибка - считать медиану заменой анализа выбросов: медиана устойчива, но плохие экстремальные значения все равно могут быть важны для бизнеса. Еще одна ошибка - сравнивать медианы групп без указания размера выборок и распределения, потому что одинаковая медиана может скрывать разный разброс.

Практика

Задачи с решением

Нечетное число значений

Условие. Найдите медиану ряда: 12, 9, 15, 10, 11.

Решение. Сортируем: 9, 10, 11, 12, 15. Наблюдений 5, центральное третье значение. Медиана равна 11.

Ответ. 11

Четное число значений

Условие. Найдите медиану ряда: 4, 8, 6, 10.

Решение. Сортируем: 4, 6, 8, 10. Центральные значения 6 и 8. Медиана = (6+8)/2 = 7.

Ответ. 7

Дополнительные источники

  • OpenStax Introductory Statistics, раздел Measures of the Center of the Data
  • NIST/SEMATECH e-Handbook of Statistical Methods, разделы о median
  • OpenStax Contemporary Mathematics, раздел Descriptive Statistics

Связанные формулы

Аналитика

Среднее арифметическое

$\bar{x}=\frac{x_1+x_2+\dots+x_n}{n}$

Среднее арифметическое показывает типичный уровень числового показателя как сумму всех значений, деленную на количество наблюдений.

Аналитика

Квартили и межквартильный размах

$IQR=Q_3-Q_1$

Межквартильный размах показывает ширину средней половины данных: это разница между третьим и первым квартилем, устойчивее полного размаха.

Аналитика

Мода

$Mo=\text{значение с максимальной частотой}$

Мода — это значение, которое встречается в наборе данных чаще всего. Она полезна для категорий, популярных вариантов и повторяющихся числовых значений.