Аналитика / Описательная статистика
Мода
Мода — это значение, которое встречается в наборе данных чаще всего. Она полезна для категорий, популярных вариантов и повторяющихся числовых значений.
Формула
Категории показаны столбцами частот; самый высокий столбец отмечен как мода.
Мода — значение или категория с максимальной частотой.
Обозначения
- $Mo$
- мода набора данных, единица или категория исходного признака
- $f(x)$
- частота значения x, шт. или доля
- $x$
- конкретное значение или категория, зависит от признака
Условия применения
- Нужно посчитать частоту каждого значения или категории.
- Мода существует, если хотя бы одно значение встречается чаще остальных.
- Набор может иметь несколько мод, если несколько значений имеют одинаковую максимальную частоту.
Ограничения
- Для непрерывных данных без повторов мода отдельного значения может быть бесполезной.
- Мода не показывает порядок и расстояние между значениями.
- Если частоты близки, одна мода может создавать ложное ощущение явного лидера.
Подробное объяснение
Мода отвечает на вопрос частоты: какое значение встречается чаще всего. Для числовых данных это может быть самая частая оценка от 1 до 5. Для категориальных данных - самый частый тариф, город, статус, тип ошибки или причина обращения.
В отличие от среднего, мода не требует числовой шкалы. Это делает ее полезной для аналитики категорий. Если нужно понять самый распространенный канал продаж, среднее и медиана не помогут, а частоты и мода дадут прямой ответ.
Мода может быть неустойчивой в маленьких выборках. Если наблюдений мало, один дополнительный ответ способен изменить лидера. Поэтому в отчетах лучше показывать не только саму моду, но и частоту или долю: например, Basic — 50% ответов.
Для непрерывных величин, таких как время или сумма заказа, точные повторы могут быть редкими. Тогда моду ищут по интервалам: например, самый частый диапазон чека 1000-1500 рублей. Но выбор ширины интервала влияет на результат, поэтому метод группировки нужно описывать.
Как пользоваться формулой
- Составьте список значений или категорий.
- Посчитайте частоту каждого значения.
- Найдите максимальную частоту.
- Выберите значение или значения с этой частотой.
- Укажите частоту или долю моды, чтобы показать силу результата.
Историческая справка
Мода как показатель выросла из частотного описания данных. Когда статистика стала работать не только с измерениями, но и с категориями, понадобился простой ответ на вопрос о самом распространенном значении. В торговле это мог быть самый ходовой размер, в демографии - наиболее частая группа, в опросах - самый популярный ответ. В современной аналитике мода особенно важна для категориальных признаков: статусы, тарифы, устройства, причины ошибок и сегменты пользователей. Она не заменяет среднее или медиану, потому что отвечает на другой вопрос: не где центр числовой шкалы, а что чаще всего встречается в данных. Поэтому мода закрепилась в отчетах как короткий способ показать наиболее частый выбор рядом с таблицей частот.
Историческая линия формулы
У моды нет одного автора. Это базовая частотная мера описательной статистики, связанная с развитием таблиц частот, категориального анализа и практики описания наиболее распространенных значений в переписях, опросах, торговой статистике и прикладных отчетах.
Пример
В опросе 12 пользователей выбрали тарифы: Basic, Pro, Basic, Plus, Pro, Basic, Basic, Plus, Pro, Basic, Plus, Basic. Частоты: Basic — 6 раз, Pro — 3 раза, Plus — 3 раза. Мода равна Basic, потому что этот тариф встречается чаще всего. Если бы Basic и Pro встретились по 5 раз, набор был бы бимодальным: две категории имели бы одинаковую максимальную частоту. Для продуктовой аналитики мода показывает самый популярный вариант, но не объясняет причины выбора. Поэтому рядом часто смотрят доли, сегменты пользователей и динамику по времени.
Частая ошибка
Частая ошибка - пытаться считать среднее по категориям вместо моды. Например, для тарифов Basic, Pro и Plus среднее не имеет смысла, а мода имеет. Вторая ошибка - считать моду всегда единственной: у данных может быть две или больше мод. Третья ошибка - объявлять значение популярным без учета размера выборки; если опрошено пять человек, мода может быть случайной. Еще одна ошибка - использовать моду для непрерывных метрик с уникальными значениями без предварительного группирования в интервалы.
Практика
Задачи с решением
Мода оценок
Условие. Оценки клиентов: 5, 4, 5, 3, 5, 4, 2, 5. Найдите моду.
Решение. Оценка 5 встречается 4 раза, 4 встречается 2 раза, 3 и 2 — по одному разу. Мода равна 5.
Ответ. 5
Две моды
Условие. Категории обращений: доставка, оплата, доставка, возврат, оплата, возврат. Есть ли одна мода?
Решение. Каждая из трех категорий встречается по 2 раза. Максимальная частота одинаковая, поэтому набор имеет три моды и одного лидера нет.
Ответ. одной моды нет; три категории имеют одинаковую частоту
Дополнительные источники
- OpenStax Introductory Statistics, раздел Measures of the Center of the Data
- OpenStax Contemporary Mathematics, раздел Descriptive Statistics
- NIST/SEMATECH e-Handbook of Statistical Methods, разделы о частотных распределениях
Связанные формулы
Аналитика
Среднее арифметическое
Среднее арифметическое показывает типичный уровень числового показателя как сумму всех значений, деленную на количество наблюдений.
Аналитика
Медиана
Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.
Аналитика
Размах вариации
Размах вариации показывает расстояние между максимальным и минимальным значением набора данных. Это самый простой показатель разброса.