ROC & AUC

简介

ROC曲线和AUC常常被用来评价二分类模型的优劣,本篇笔记介绍ROC和AUC的特点,以及如何作出ROC曲线图并计算AUC。

ROC曲线

针对二分类问题,ROC曲线的横坐标为false positive rate(FPR),纵坐标为true positive rate(TPR)

FPR和TPR定义

下图这一混淆矩阵详细说明了FPR和TPR是如何定义的。
fpr-and-tpr
对于一个特定的分类器和测试集,只能得到一个分类结果,即只有一组FPR和TPR结果,要得到一曲线,需要一系列的FPR和TPR的值对,wikipedia上对ROC曲线的定义:

In statistics, a receiver operating characteristic curve, i.e. ROC curve, is a graphical plot that illustrates the diagnostic ability of a binary classifier system as its discrimination threshold is varied.


“discrimination threshold”如何理解呢?,对于一个二分类器的“概率输出”,即表示分类器认为样本属于正样本的概率多大,我们从高到低依次将这一概率输出作为阈值threshold,得到测试集的正负样本划分,这样每次选取一个不同的threshold,就得到一组FPR和TPR,即ROC曲线上一点,将这些(FPR,TPR)对连接起来,就得到了ROC曲线,当threshold取值越多,ROC曲线越平滑。

AUC的计算

AUC的含义是?ROC曲线下面积,作为一个数值,AUC越大分类器效果越好。

可以理解为,所有正负样本对中,正样本score大于负样本score的概率值。

使用ROC曲线好处

当测试集中正负样本的分布变化或者类别不平衡的时候,相比于Precision-Recall曲线,ROC曲线能够保持不变。

实现

参考文献:

  1. ROC和AUC介绍以及如何计算AUC
分享