Аналитика / Precision, recall

Матрица ошибок бинарной классификации

Матрица ошибок раскладывает бинарные решения на TP, TN, FP и FN. Это исходная таблица для accuracy, precision, recall, specificity и F1, поэтому сначала проверяют класс, порог и сумму ячеек.

Опубликовано: Обновлено:

Формула

$$N=TP+TN+FP+FN$$

Обозначения

$TP$
истинно положительные решения, объекты
$TN$
истинно отрицательные решения, объекты
FP, FN
ложноположительные и ложноотрицательные решения, объекты

Условия применения

  • Перед построением матрицы выбран положительный класс и правило перевода скора в метку.
  • Каждый объект попадает ровно в одну ячейку TP, TN, FP или FN.
  • Сумма четырех ячеек сверена с размером проверочной выборки.

Ограничения

  • Матрица ошибок сама по себе не сводит качество к одному числу.
  • При дисбалансе классов большие TN могут визуально заслонять малое число важных FN.
  • Изменение порога перестраивает всю матрицу, поэтому сравнение без порога неполно.

Подробное объяснение

Матрица ошибок бинарной классификации связывает исходные наблюдения с итоговой метрикой через запись N=TP+TN+FP+FN. Главная польза такой записи в том, что она отделяет сам расчет от обсуждения модели: сначала ясно, какие числа входят в формулу, затем уже оценивается смысл результата. Для confusion matrix итог читают как разложение всех бинарных решений на четыре типа исходов, а не как самостоятельный приговор модели.

Метрики классификации начинаются с матрицы ошибок. Каждое решение попадает в одну из четырех ячеек: верный положительный ответ, верный отрицательный ответ, ложная тревога или пропуск положительного класса. Разные формулы берут разные сочетания этих ячеек и поэтому отвечают на разные вопросы.

При изменении порога классификации счетчики меняются: больше положительных решений обычно повышает полноту, но может снизить точность. Поэтому одно число нельзя читать без контекста. Для редкого положительного класса особенно важно смотреть не только долю верных ответов, но и баланс между ошибками разных типов.

В прикладной задаче сначала выбирают, какая ошибка дороже: пропуск нужного объекта или лишнее срабатывание. После этого метрику считают на одной проверочной выборке и сравнивают пороги или модели. Такой порядок помогает не подгонять вывод под красивое число, а связать расчет с реальной ценой решения.

Перед подстановкой полезно пересчитать сумму ячеек и убедиться, что она равна числу объектов. Затем проверяют, что положительный класс выбран одинаково во всех формулах. Это простая защита от самой частой путаницы: поменять местами классы и получить аккуратный, но противоположный по смыслу результат.

Как пользоваться формулой

  1. Определите положительный класс и правило отнесения к нему.
  2. Постройте матрицу ошибок на одной проверочной выборке.
  3. Проверьте, что сумма TP, TN, FP и FN равна числу объектов.
  4. Подставьте счетчики в формулу выбранной метрики.
  5. Сравните результат с соседними метриками и ценой ошибок.

Историческая справка

Метрики классификации сложились на пересечении медицинской диагностики, теории обнаружения сигнала, информационного поиска и машинного обучения. Матрица ошибок как способ разложить решения на верные и неверные исходы стала удобным языком для задач, где важно различать ложную тревогу и пропуск. В середине XX века теория обнаружения сигнала дала ROC-кривые, а информационный поиск развил precision, recall и F-меру.

С ростом машинного обучения эти показатели стали стандартным набором проверки моделей. Их современный вид связан с учебниками, обзорными статьями и практикой соревнований, а не с единственным изобретателем. Формулы выглядят простыми, но исторически за ними стоит важный сдвиг: качество алгоритма стали описывать не одной долей успеха, а несколькими метриками, соответствующими разной цене ошибок.

Для «Матрица ошибок бинарной классификации» корректная атрибуция такова: Pearson, signal detection theory, machine learning textbooks.

Историческая линия формулы

Формулу «Матрица ошибок бинарной классификации» лучше связывать не с единственным автором, а с развитием темы classification-metrics и практикой статистической проверки моделей. Pearson, signal detection theory, machine learning textbooks. Конкретные имена в источниках задают исторический контекст, но современная запись является результатом коллективной учебной и прикладной традиции.

Пример

Дано: нужно проверить расчет для материала «Матрица ошибок бинарной классификации». Берем небольшой набор, где легко проследить каждую строку: TP=42, TN=50, FP=8, FN=10. Требуется получить итоговую метрику и понять, не нарушены ли единицы измерения. Подстановка: N=42+50+8+10=110; положительных фактов TP+FN=52; отрицательных фактов TN+FP=58. Ответ: 110 объектов. Проверка: исходные значения относятся к одной выборке, промежуточные действия не округлялись раньше времени, а итог имеет ожидаемый масштаб. Если увеличить ошибку или число неверных решений, значение метрики изменится в понятную сторону; если вернуть исходные данные в таблицу, сумма и знаменатель совпадают с условием.

Частая ошибка

Для confusion matrix часто ошибаются в выборе положительного класса: модель «хорошо» работает только потому, что знак класса был прочитан наоборот. Вторая ошибка - смотреть одну метрику при сильном дисбалансе классов; высокая доля верных ответов может скрывать пропуски редких важных объектов. Третья ошибка - менять порог между сравниваемыми расчетами без указания правила. Надежный расчет начинается с матрицы ошибок, проверки суммы ячеек и явного выбора порога.

Практика

Задачи с решением

Контрольная подстановка

Условие. Для формулы «Матрица ошибок бинарной классификации» даны учебные значения из примера. Выполните расчет и укажите итог.

Решение. Используем ту же подстановку: N=42+50+8+10=110; положительных фактов TP+FN=52; отрицательных фактов TN+FP=58. Промежуточные значения не округляем до финального шага.

Ответ. 110 объектов

Проверка интерпретации

Условие. Что нужно проверить перед сравнением значения confusion matrix для двух моделей?

Решение. Нужно убедиться, что использованы одна выборка, одинаковое правило подготовки данных, одинаковый горизонт или порог и одна трактовка положительного класса или ошибки.

Ответ. Сравнение допустимо только при одинаковой базе расчета и одинаковых правилах.

Дополнительные источники

  • Fawcett. An Introduction to ROC Analysis, Pattern Recognition Letters, 2006.
  • Powers. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness and Correlation, 2011.
  • Hastie, Tibshirani, Friedman. The Elements of Statistical Learning.

Связанные формулы

Аналитика

Accuracy как доля правильных классификаций

$\mathrm{Accuracy}=\frac{TP+TN}{TP+TN+FP+FN}$

Accuracy - доля верных ответов среди всех объектов. Метрика быстро показывает общий уровень классификации, но хорошо читается только при сопоставимых классах и близкой цене ложных тревог и пропусков.

Аналитика

Precision для положительного класса

$\mathrm{Precision}=\frac{TP}{TP+FP}$

Precision показывает, какая часть объектов, помеченных моделью как положительные, действительно положительна. Метрика важна, когда ложные срабатывания дороги: модерация, лиды, диагностика, ручная проверка.

Аналитика

Recall для положительного класса

$\mathrm{Recall}=\frac{TP}{TP+FN}$

Recall показывает, какую долю настоящих положительных объектов модель нашла. Метрика важна, когда опаснее пропустить нужный случай, чем получить лишнее срабатывание: риск, дефекты, заявки.

Аналитика

F1-мера классификации для баланса precision и recall

$F_1=\frac{2\cdot Precision\cdot Recall}{Precision+Recall}$

F1 объединяет precision и recall через гармоническое среднее. Метрика полезна, когда нужно одним числом балансировать ложные срабатывания и пропуски, но true negative в расчет не входит.

Аналитика

Specificity классификатора

$\mathrm{Specificity}=\frac{TN}{TN+FP}$

Specificity показывает, какую долю настоящих отрицательных объектов модель оставила отрицательными. Метрика дополняет recall и важна там, где надо ограничить ложные тревоги при фиксированном положительном классе.