Аналитика

Precision, recall

precision, recall, F1, ROC-AUC

8 формул

Формулы темы

Accuracy как доля правильных классификаций

Accuracy - доля верных ответов среди всех объектов. Метрика быстро показывает общий уровень классификации, но хорошо читается только при сопоставимых классах и близкой цене ложных тревог и пропусков.

$\mathrm{Accuracy}=\frac{TP+TN}{TP+TN+FP+FN}$

Precision для положительного класса

Precision показывает, какая часть объектов, помеченных моделью как положительные, действительно положительна. Метрика важна, когда ложные срабатывания дороги: модерация, лиды, диагностика, ручная проверка.

$\mathrm{Precision}=\frac{TP}{TP+FP}$

Recall для положительного класса

Recall показывает, какую долю настоящих положительных объектов модель нашла. Метрика важна, когда опаснее пропустить нужный случай, чем получить лишнее срабатывание: риск, дефекты, заявки.

$\mathrm{Recall}=\frac{TP}{TP+FN}$

F1-мера классификации для баланса precision и recall

F1 объединяет precision и recall через гармоническое среднее. Метрика полезна, когда нужно одним числом балансировать ложные срабатывания и пропуски, но true negative в расчет не входит.

$F_1=\frac{2\cdot Precision\cdot Recall}{Precision+Recall}$

Specificity классификатора

Specificity показывает, какую долю настоящих отрицательных объектов модель оставила отрицательными. Метрика дополняет recall и важна там, где надо ограничить ложные тревоги при фиксированном положительном классе.

$\mathrm{Specificity}=\frac{TN}{TN+FP}$

ROC AUC через пары объектов

ROC AUC оценивает ранжирование: насколько часто положительный объект получает скор выше отрицательного. Метрика не зависит от одного порога, но требует корректных скорингов и выбранного положительного класса.

$\mathrm{AUC}=\frac{N_{concordant}+0.5N_{tied}}{N_{positive}N_{negative}}$

Lift модели классификации

Lift показывает, во сколько раз выбранный моделью сегмент богаче целевыми объектами, чем вся база. Метрика полезна для CRM, маркетинга и скоринга, где важен верхний процент списка, а не общий порог.

$\mathrm{Lift}=\frac{\text{response rate in selected group}}{\text{overall response rate}}$

Матрица ошибок бинарной классификации

Матрица ошибок раскладывает бинарные решения на TP, TN, FP и FN. Это исходная таблица для accuracy, precision, recall, specificity и F1, поэтому сначала проверяют класс, порог и сумму ячеек.

$N=TP+TN+FP+FN$