PR曲线详解只要你用过PR

PR曲线概念

PR曲线中的P代表的是precision（精准率），R代表的是recall（召回率），其代表的是精准率与召回率的关系，一般情况下，将recall设置为横坐标，precision设置为纵坐标。

precision（精准率）和recall（召回率）

上述中介少了PR曲线的实质代表为precision（精准率）和recall（召回率），但是这二者是什么呢？下面咱们进行相关的讲述。
首先，我们了解一下混淆矩阵，如下表。

其中，把正例正确地分类为正例，表示为TP（true positive），把正例错误地分类为负例，表示为FN（false negative）。把负例正确地分类为负例，表示为TN（true negative），把负例错误地分类为正例，表示为FP（false positive）。
从混淆矩阵可以得出精准率与召回率：
precision = TP/TP + FP)
recall = TP/TP +FＮ)

PR曲线功能说明

一条PR曲线要对应一个阈值（统计学的概率）。通过选择合适的阈值比如K%)对样本进行合理的划分，概率大于K%的样本为正例，小于K%的样本为负例，样本分类完成后计算相应的精准率和召回率，最后我们会得到对应关系，如下图所示。

在众多学习器对数据进行学习后，如果其中一个学习器的PR曲线A完全包住另一个学习器B的PR曲线，则可断言A的性能优于B。但是A和B发生交叉，那性能该如何判断呢？我们可以根据曲线下方的面积大小来进行比较，但更常用的是平衡点F1。平衡点（BEP）是P=R时的取值（斜率为1），F1值越大，我们可以认为该学习器的性能较好。F1的计算如下所示：
F1 = 2 * P * R ／ P + R )

Published by

风君子

独自遨游何稽首揭天掀地慰生平 View all posts by 风君子

发表回复取消回复