Аналитика / Прогнозирование

Средняя абсолютная процентная ошибка MAPE

MAPE показывает среднюю абсолютную ошибку прогноза в процентах от фактических значений. Метрика удобна для рядов разного масштаба, но требует аккуратности при нулевых и очень малых фактах.

Опубликовано: Обновлено:

Формула

$$\mathrm{MAPE}=\frac{100\%}{n}\sum_{i=1}^{n}\left|\frac{y_i-\hat{y}_i}{y_i}\right|$$

Обозначения

$y_i$
фактическое значение в i-м наблюдении, единицы исходной величины
$\hat{y}_i$
прогнозное значение для того же наблюдения, единицы исходной величины
$n$
число наблюдений в проверяемом наборе, шт.

Условия применения

  • Для MAPE у каждой строки есть ненулевой фактический знаменатель; малые факты проверены отдельно.
  • Факт и прогноз относятся к одному периоду и уровню агрегации, иначе процентная ошибка искажается.
  • Проценты считают по строкам до усреднения, не подменяя их отношением средних значений.

Ограничения

  • MAPE неустойчив при нулевых и очень малых фактах: процент может стать бесконечным или чрезмерным.
  • Метрика сильнее штрафует ошибки на малых объемах, чем на крупных строках.
  • Средний процент нельзя сравнивать между выборками с разной долей нулевых и редких продаж.

Подробное объяснение

Средняя абсолютная процентная ошибка MAPE связывает исходные наблюдения с итоговой метрикой через запись \mathrm{MAPE}=\frac{100\%}{n}\sum_{i=1}^{n}\left|\frac{y_i-\hat{y}_i}{y_i}\right|. Главная польза такой записи в том, что она отделяет сам расчет от обсуждения модели: сначала ясно, какие числа входят в формулу, затем уже оценивается смысл результата. Для MAPE итог читают как средняя относительная ошибка в процентах от факта, а не как самостоятельный приговор модели.

Идея метрик прогноза строится на остатках: из факта вычитают прогноз, затем превращают набор ошибок в одно число. Разные способы обработки остатка дают разный акцент. Модуль сохраняет исходный масштаб ошибки, квадрат усиливает крупные промахи, процентная нормировка делает сравнение удобнее между рядами разного размера.

Поведение результата важно проверять мысленно. Если все прогнозы становятся ближе к фактам, ошибка должна уменьшаться. Если один промах резко вырос, квадратичные метрики реагируют сильнее абсолютных. Если фактические значения малы, процентные метрики могут стать слишком нервными, поэтому рядом нужен контроль объема и качества ряда.

На практике формулу считают на отложенном периоде: модель обучают на прошлых данных, затем сверяют прогноз с фактами, которые не участвовали в настройке. Такой порядок снижает самообман и позволяет сравнить несколько вариантов прогнозирования честно: одинаковые даты, одинаковая агрегация, одинаковые правила обработки пропусков.

Перед подстановкой полезно выписать строки таблицы: дата, факт, прогноз, ошибка и преобразованная ошибка. Тогда легко заметить пропущенную неделю, перепутанный знак или раннее округление. Итоговая метрика становится не просто числом в отчете, а воспроизводимым расчетом, который можно пересчитать по исходным строкам.

Как пользоваться формулой

  1. Подготовьте таблицу с фактом и прогнозом по одним и тем же периодам.
  2. Удалите или пометьте строки, где факт или прогноз отсутствует.
  3. Рассчитайте построчную ошибку без округления промежуточных значений.
  4. Подставьте ошибки в формулу и получите итоговую метрику.
  5. Сравните результат с базовой моделью и графиком остатков.

Историческая справка

Метрики ошибок прогноза выросли из статистики временных рядов и практики планирования XX века. Когда прогнозы стали использовать в производстве, логистике, демографии и экономике, понадобились короткие численные меры, которые позволяют сравнить несколько методов на одном наборе фактов. Абсолютные и квадратичные ошибки связаны с более старой традицией анализа остатков, а процентные меры получили широкое распространение в деловых прогнозах, где разные ряды имеют разный масштаб.

Современная запись закрепилась вместе с учебниками по forecasting и соревнованиями прогнозных методов. В работах Макридакиса, Хайндмана и их коллег метрики стали не украшением, а обязательной частью проверки: модель сравнивают с наивной базой, считают ошибку на отложенном периоде и отдельно обсуждают случаи, где выбранная мера искажает вывод. Поэтому у формулы обычно нет одного автора; она является частью общей статистической практики.

Для «Средняя абсолютная процентная ошибка MAPE» корректная атрибуция такова: Armstrong, Makridakis, forecasting competitions.

Историческая линия формулы

Формулу «Средняя абсолютная процентная ошибка MAPE» лучше связывать не с единственным автором, а с развитием темы forecasting и практикой статистической проверки моделей. Armstrong, Makridakis, forecasting competitions. Конкретные имена в источниках задают исторический контекст, но современная запись является результатом коллективной учебной и прикладной традиции.

Пример

Дано: нужно проверить расчет для материала «Средняя абсолютная процентная ошибка MAPE». Берем небольшой набор, где легко проследить каждую строку: фактические значения [120, 95, 140, 110] и прогнозы [115, 100, 132, 118]. Требуется получить итоговую метрику и понять, не нарушены ли единицы измерения. Подстановка: 100%/4*(5/120+5/95+8/140+8/110)=5,60%. Ответ: 5,60%. Проверка: исходные значения относятся к одной выборке, промежуточные действия не округлялись раньше времени, а итог имеет ожидаемый масштаб. Если увеличить ошибку или число неверных решений, значение метрики изменится в понятную сторону; если вернуть исходные данные в таблицу, сумма и знаменатель совпадают с условием.

Частая ошибка

Частая ошибка при расчете MAPE - смешивать разные горизонты: дневной прогноз сравнивают с недельным фактом или модель на месяц проверяют по строкам за квартал. Вторая ошибка - удалять неудобные выбросы без явного правила, из-за чего метрика становится слишком оптимистичной. Третья ошибка - округлять ошибки до суммирования, особенно при процентах. Правильный порядок такой: сначала зафиксировать период и уровень агрегации, затем рассчитать построчные ошибки, проверить пропуски и только после этого округлить итог.

Практика

Задачи с решением

Контрольная подстановка

Условие. Для формулы «Средняя абсолютная процентная ошибка MAPE» даны учебные значения из примера. Выполните расчет и укажите итог.

Решение. Используем ту же подстановку: 100%/4*(5/120+5/95+8/140+8/110)=5,60%. Промежуточные значения не округляем до финального шага.

Ответ. 5,60%

Проверка интерпретации

Условие. Что нужно проверить перед сравнением значения MAPE для двух моделей?

Решение. Нужно убедиться, что использованы одна выборка, одинаковое правило подготовки данных, одинаковый горизонт или порог и одна трактовка положительного класса или ошибки.

Ответ. Сравнение допустимо только при одинаковой базе расчета и одинаковых правилах.

Дополнительные источники

  • Hyndman, Athanasopoulos. Forecasting: Principles and Practice, 3rd edition.
  • Makridakis, Wheelwright, Hyndman. Forecasting: Methods and Applications.
  • NIST/SEMATECH e-Handbook of Statistical Methods, time series and prediction error sections.

Связанные формулы

Аналитика

Средняя абсолютная ошибка MAE

$\mathrm{MAE}=\frac{1}{n}\sum_{i=1}^{n}|y_i-\hat{y}_i|$

MAE усредняет модули отклонений факта от прогноза и показывает типичный промах в исходных единицах. Метрика удобна для понятного сравнения моделей на одном горизонте, но не усиливает крупные ошибки.

Аналитика

Средняя квадратичная ошибка MSE

$\mathrm{MSE}=\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2$

MSE усредняет квадраты ошибок прогноза, поэтому крупные промахи влияют на итог сильнее мелких. Результат измеряется в квадрате исходных единиц и подходит для сравнения моделей на одной проверочной выборке.

Аналитика

Корень из среднеквадратичной ошибки RMSE

$\mathrm{RMSE}=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}$

RMSE - корень из MSE: он сохраняет штраф за крупные ошибки, но возвращает результат в исходные единицы. Метрика показывает типичный размер промаха модели на фиксированном горизонте и наборе фактов.

Аналитика

Взвешенная абсолютная процентная ошибка WAPE

$\mathrm{WAPE}=\frac{\sum_{i=1}^{n}|y_i-\hat{y}_i|}{\sum_{i=1}^{n}|y_i|}\cdot100\%$

WAPE делит суммарную абсолютную ошибку на общий фактический объем. Метрика показывает долю промаха в процентах от всего спроса или оборота и сильнее отражает строки с большим весом.

Аналитика

Простое скользящее среднее

$\mathrm{SMA}_t=\frac{x_{t-k+1}+x_{t-k+2}+\ldots+x_t}{k}$

SMA заменяет текущее значение средним по последним k наблюдениям. Это простая база для сглаживания шума и краткосрочного прогноза, но она запаздывает на трендах и резких разворотах.