Аналитика / Описательная статистика
Среднее арифметическое
Среднее арифметическое показывает типичный уровень числового показателя как сумму всех значений, деленную на количество наблюдений.
Формула
Столбцы разных высот выравниваются до одной горизонтальной линии среднего уровня.
Среднее показывает равномерно распределенный уровень суммы наблюдений.
Обозначения
- $\bar{x}$
- среднее арифметическое, единица исходного показателя
- $x_i$
- отдельное наблюдение в наборе данных, единица исходного показателя
- $n$
- количество наблюдений, шт.
Условия применения
- Все значения относятся к одной и той же величине и измерены в одинаковых единицах.
- Набор данных числовой: у категорий без числового смысла среднее считать нельзя.
- Каждое наблюдение имеет одинаковый вес, если не используется взвешенное среднее.
Ограничения
- Среднее сильно чувствительно к выбросам: одно очень большое или очень маленькое значение может заметно сдвинуть результат.
- Для асимметричных распределений среднее может плохо описывать типичного пользователя или типичную операцию.
- Если данные содержат пропуски, нужно явно решить, исключать их, заменять или анализировать отдельно.
Подробное объяснение
Среднее арифметическое распределяет общую сумму показателя поровну между всеми наблюдениями. Если суммарная выручка за пять дней равна 8000 рублей, среднее 1600 рублей отвечает на вопрос: какая сумма пришлась бы на один день, если бы весь итог был распределен равномерно.
Главное достоинство среднего - простота и связь с суммой. Если известно среднее и количество наблюдений, можно восстановить общую сумму как x̄*n. Поэтому среднее хорошо работает в финансовых и операционных отчетах, где сумма имеет реальный смысл.
Но среднее не всегда показывает типичное наблюдение. Если в наборе есть выброс, среднее сдвигается в его сторону. При анализе времени обработки заявок одна очень долгая заявка может поднять среднее, хотя большинство заявок закрывается быстро. В таких случаях среднее лучше читать вместе с медианой, квартилями и стандартным отклонением.
Перед расчетом нужно проверить единицы и фильтры. Среднее по минутам нельзя смешивать с секундами, среднее по всем клиентам нельзя сравнивать со средним только по активным клиентам без пояснения. Хорошее аналитическое среднее всегда сопровождается описанием данных, периода и правил обработки пропусков.
Как пользоваться формулой
- Соберите числовые значения одной величины.
- Проверьте единицы измерения и пропуски.
- Сложите все значения.
- Разделите сумму на количество наблюдений.
- Сравните результат с медианой и разбросом, если данные могут быть асимметричными.
Историческая справка
Среднее арифметическое возникло как естественный способ обобщать измерения, торговые итоги и наблюдения. В статистике оно стало одним из центральных показателей, потому что связано с суммой и удобно для математического анализа. В астрономии, геодезии и экспериментальных измерениях усреднение помогало уменьшать влияние случайных ошибок, если измерения выполнялись несколько раз. Позже среднее стало стандартным инструментом экономической статистики, управления производством, социологии и аналитики данных. В современных BI-отчетах среднее часто появляется автоматически, но именно поэтому его нужно читать осторожно: простота формулы не отменяет проверки выбросов, группировки и смысла исходных данных.
Историческая линия формулы
У среднего арифметического нет единственного автора. Это базовая идея числового обобщения, развивавшаяся в арифметике, астрономических наблюдениях, торговом учете и статистике. В аналитике она используется как фундаментальная мера центра данных.
Пример
Пусть за пять дней интернет-магазин получил средние чеки по дням: 1200, 1500, 1300, 1600 и 2400 рублей. Сумма значений равна 8000 рублей, число наблюдений n = 5. Среднее арифметическое: x̄ = 8000 / 5 = 1600 рублей. Это не означает, что каждый день был чек 1600 рублей: это общий уровень за период. Если последний день был акцией и дал 2400 рублей, среднее поднимется. Поэтому рядом полезно смотреть медиану: для отсортированного ряда 1200, 1300, 1500, 1600, 2400 медиана равна 1500. Разница между средним и медианой показывает, что верхнее значение тянет среднее вверх.
Частая ошибка
Частая ошибка - считать среднее по кодам категорий, например по номерам сегментов 1, 2 и 3, хотя сами номера не являются измерением. Вторая ошибка - удалять пропуски молча: если нулевые продажи и неизвестные продажи смешаны, среднее может стать неверным. Третья ошибка - сравнивать средние двух групп без учета размера групп и разброса. Еще одна ошибка - использовать среднее как единственный показатель для сильно скошенных данных, например доходов, времени доставки или стоимости заказов с редкими крупными значениями.
Практика
Задачи с решением
Среднее время ответа
Условие. Время ответа поддержки по пяти обращениям: 3, 5, 4, 6 и 7 минут. Найдите среднее.
Решение. Сумма равна 3 + 5 + 4 + 6 + 7 = 25 минут. Количество обращений n = 5. Среднее равно 25/5 = 5 минут.
Ответ. 5 минут
Средний чек с выбросом
Условие. Чеки: 900, 1100, 1000, 950 и 5000 рублей. Найдите среднее и объясните риск интерпретации.
Решение. Сумма равна 8950 рублей, n = 5. Среднее 8950/5 = 1790 рублей. Большой чек 5000 заметно поднял среднее, поэтому для типичного чека стоит посмотреть медиану.
Ответ. 1790 рублей; результат сдвинут крупным чеком
Дополнительные источники
- OpenStax Introductory Statistics, раздел Descriptive Statistics
- NIST/SEMATECH e-Handbook of Statistical Methods, разделы о sample mean
- OpenStax Contemporary Mathematics, разделы о средних и описательной статистике
Связанные формулы
Аналитика
Медиана
Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.
Аналитика
Мода
Мода — это значение, которое встречается в наборе данных чаще всего. Она полезна для категорий, популярных вариантов и повторяющихся числовых значений.
Аналитика
Выборочное стандартное отклонение
Выборочное стандартное отклонение показывает типичный масштаб отклонения значений от среднего в исходных единицах показателя.