Аналитика / Описательная статистика
Квартили и межквартильный размах
Межквартильный размах показывает ширину средней половины данных: это разница между третьим и первым квартилем, устойчивее полного размаха.
Формула
Коробка от Q1 до Q3, линия медианы внутри и отдельная дальняя точка как возможный выброс.
IQR — ширина коробки между первым и третьим квартилем.
Обозначения
- $Q_1$
- первый квартиль, ниже которого находится около 25% данных, единица исходного показателя
- $Q_3$
- третий квартиль, ниже которого находится около 75% данных, единица исходного показателя
- $IQR$
- межквартильный размах, единица исходного показателя
Условия применения
- Данные можно упорядочить по возрастанию.
- Метод вычисления квартилей должен быть выбран явно, потому что в программах возможны разные варианты.
- IQR особенно полезен для скошенных распределений и данных с выбросами.
Ограничения
- Разные программы могут немного по-разному считать квартильные позиции на малых выборках.
- IQR не показывает крайние значения и не заменяет минимум/максимум.
- Для очень маленьких наборов квартильная интерпретация может быть грубой.
Подробное объяснение
Квартили делят упорядоченные данные на четыре части. Первый квартиль Q1 находится около границы 25%, медиана - около 50%, третий квартиль Q3 - около 75%. Разница Q3-Q1 показывает ширину центральной половины данных.
IQR устойчивее размаха, потому что не зависит напрямую от самого маленького и самого большого значения. Если один заказ доставлялся 120 минут, полный размах резко вырастет, но Q1 и Q3 могут почти не измениться. Поэтому IQR хорошо подходит для скошенных данных.
На основе IQR часто строят коробчатую диаграмму. Коробка идет от Q1 до Q3, линия внутри показывает медиану, а отдельные точки могут обозначать выбросы. Это компактный способ увидеть центр, разброс и необычные значения.
Важно помнить, что квартиль - это не всегда одно наблюдение из ряда. В разных методиках он может вычисляться интерполяцией между позициями. Для больших наборов различия обычно малы, а для маленьких их лучше явно описывать.
Как пользоваться формулой
- Отсортируйте данные по возрастанию.
- Найдите первый квартиль Q1.
- Найдите третий квартиль Q3.
- Вычтите Q1 из Q3.
- Используйте IQR вместе с медианой и минимумом/максимумом.
Историческая справка
Квартили и межквартильный размах стали важной частью описательной статистики и разведочного анализа данных. Они особенно полезны там, где среднее и стандартное отклонение плохо описывают асимметричные данные. В XX веке идеи позиционного описания распределений получили широкое практическое применение в коробчатых диаграммах, которые популяризировал Джон Тьюки в контексте exploratory data analysis. Для современной аналитики IQR удобен тем, что быстро показывает центральную часть распределения и помогает говорить о выбросах без чрезмерной зависимости от крайних значений. Показатель закрепился в BI-отчетах, продуктовой аналитике и контроле качества как компактный способ описать данные с длинными хвостами.
Историческая линия формулы
Квартили как позиционные характеристики не имеют одного автора. Коробчатые диаграммы и практическое использование IQR тесно связаны с традицией разведочного анализа данных и работами Джона Тьюки, но сама формула IQR является простой разностью Q3 и Q1.
Пример
Есть отсортированный ряд времени доставки: 18, 19, 20, 21, 22, 23, 120. Медиана равна 21. Нижняя половина без медианы: 18, 19, 20, ее медиана Q1 = 19. Верхняя половина без медианы: 22, 23, 120, ее медиана Q3 = 23. Межквартильный размах IQR = 23 - 19 = 4 минуты. Хотя максимум 120 сильно увеличивает полный размах, IQR показывает, что центральная половина доставок находится в узком диапазоне. Это помогает отделить типичную вариативность от редкого экстремального случая. Для короткого отчета рядом можно указать медиану 21 минуту и максимум 120 минут, чтобы не потерять сигнал задержки.
Частая ошибка
Частая ошибка - считать IQR как максимум минус минимум. Это размах, а не межквартильный размах. Вторая ошибка - не указывать метод расчета квартилей при маленьких наборах, из-за чего Excel, Python, R или учебный метод могут дать немного разные значения. Третья ошибка - думать, что IQR удаляет выбросы: он лишь описывает центральную часть данных. Выбросы нужно анализировать отдельно, особенно если они отражают реальные проблемы сервиса или процесса.
Практика
Задачи с решением
Простой IQR
Условие. Для набора данных Q1 = 12, Q3 = 20. Найдите межквартильный размах.
Решение. IQR = Q3 - Q1 = 20 - 12 = 8.
Ответ. 8
Интерпретация
Условие. У времени доставки медиана 30 минут, Q1 = 24, Q3 = 38. Что означает IQR?
Решение. IQR = 38 - 24 = 14 минут. Центральные 50% доставок лежат примерно между 24 и 38 минутами.
Ответ. IQR = 14 минут; средняя половина доставок в диапазоне 24-38 минут
Дополнительные источники
- OpenStax Introductory Statistics, раздел Quartiles and Interquartile Range
- NIST/SEMATECH e-Handbook of Statistical Methods, разделы о box plot и exploratory data analysis
- OpenStax Statistics, раздел Measures of the Location of the Data
Связанные формулы
Аналитика
Медиана
Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.
Аналитика
Размах вариации
Размах вариации показывает расстояние между максимальным и минимальным значением набора данных. Это самый простой показатель разброса.
Аналитика
Правило выбросов по IQR
Правило 1,5 IQR помечает значения как возможные выбросы, если они лежат ниже Q1−1,5·IQR или выше Q3+1,5·IQR, без предположения о нормальности.