机器学习中分类模型的多种评估指标解析

在机器学习领域,评估分类模型的性能是确保其准确性和有效性的关键步骤。虽然准确率是一个重要的指标,但它只是冰山一角。本文将深入探讨多种评估指标,帮助您全面理解模型的性能,并指导您做出正确的决策,以提升模型的预测能力。

分类指标在机器学习中的重要性

分类指标用于预测给定输入数据的类别标签。在二分类问题中,只有两种可能的输出类别(即二分法)。在多分类问题中,可能存在两种以上的类别。本文将重点讨论二分类问题。

一个常见的二分类例子是垃圾邮件检测,其中输入数据可能包括电子邮件文本和元数据(发件人、发送时间),输出标签是“垃圾邮件”或“非垃圾邮件”。有时,人们也会使用其他名称来指代这两个类别:“正类”和“负类”,或“类别1”和“类别0”。

Image 2

准确率的局限性

准确率简单地衡量分类器正确预测的频率。我们可以将准确率定义为正确预测的数量与总预测数量的比率。

当模型给出99%的准确率时,您可能会认为模型表现非常好,但这并不总是正确的,在某些情况下可能会产生误导。以下通过一个例子来解释这一点。

准确率局限性的例子

考虑一个二分类问题,模型只能得到两种结果:正确预测或错误预测。现在想象我们有一个分类任务,预测一张图片是狗还是猫。在监督学习算法中,我们首先在训练数据上拟合/训练模型,然后在测试数据上测试模型。一旦我们从X_test数据中获得模型的预测,我们将其与真实的y值(正确标签)进行比较。

Image 3

我们将狗的图像输入训练模型。假设模型预测这是一只狗,然后我们将预测与正确标签进行比较。如果模型预测这是一只猫,然后我们再次将其与正确标签进行比较,结果将是错误的。

我们对X_test数据中的所有图像重复此过程。最终,我们将得到正确和错误匹配的计数。但在现实中,所有错误或正确匹配的价值很少是相等的。因此,一个指标并不能说明全部情况。

准确率在目标类别平衡时很有用,但在类别不平衡时并不是一个好的选择。想象一下,如果我们的训练数据中有99张狗的图像和只有1张猫的图像,那么我们的模型将总是预测为狗,因此我们得到了99%的准确率。实际上,数据总是不平衡的,例如垃圾邮件、信用卡欺诈和医疗诊断。因此,如果我们想要更好地评估模型并全面了解模型评估,还应考虑其他指标,如召回率和精确率。

Image 4

混淆矩阵

混淆矩阵是用于机器学习分类问题的性能测量工具,其中输出可以是两个或更多类别。它是一个包含预测值和实际值组合的表格。

混淆矩阵通常用于描述分类模型在一组已知真实值的测试数据上的性能。它对于测量召回率、精确率、准确率和AUC-ROC曲线非常有用。

让我们通过一个怀孕的类比来理解真正例(TP)、假正例(FP)、假反例(FN)和真反例(TN)。

  • 真正例(TP):我们预测为正类,且实际为正类。在图像中,我们预测一个女人怀孕了,而她确实怀孕了。
  • 真反例(TN):我们预测为负类,且实际为负类。在图像中,我们预测一个男人没有怀孕,而他确实没有怀孕。
  • 假正例(FP,类型1错误):我们预测为正类,但实际为负类。在图像中,我们预测一个男人怀孕了,但他实际上没有怀孕。
  • 假反例(FN,类型2错误):我们预测为负类,但实际为正类。在图像中,我们预测一个女人没有怀孕,但她实际上怀孕了。

精确率

精确率解释了有多少正确预测的案例实际上变成了正类。精确率在假正例比假反例更受关注的情况下很有用。精确率在音乐或视频推荐系统、电子商务网站等场景中非常重要,错误的结果可能导致客户流失,这对业务有害。

精确率定义为真正例的数量除以预测为正类的数量。

召回率(灵敏度)

召回率解释了有多少实际正类的案例被我们的模型正确预测。召回率在假反例比假正例更受关注的情况下是一个有用的指标。它在医疗案例中非常重要,因为是否发出错误警报并不重要,但实际正类案例不应被漏检!

召回率定义为真正例的数量除以实际正类的总数。

F1分数

F1分数给出了精确率和召回率的综合概念。当精确率等于召回率时,F1分数最大。

F1分数是精确率和召回率的调和平均数。F1分数在以下情况下可能是一个有效的评估指标:

  • 当假正例和假反例的成本相等时。
  • 添加更多数据不会有效改变结果。
  • 真反例很高。

AUC-ROC

接收者操作特征(ROC)是一条概率曲线,它在不同阈值下绘制真正例率(TPR)对假正例率(FPR),并将“信号”与“噪声”分开。

曲线下面积(AUC)是分类器区分类别能力的度量。从图中,我们简单地说曲线ABDE和X轴和Y轴的面积。

从下图可以看出,AUC越大,模型在不同阈值点区分正类和负类的性能越好。这意味着当AUC等于1时,分类器能够完美地区分所有正类和负类点。当AUC等于0时,分类器将预测所有负类为正类,反之亦然。当AUC为0.5时,分类器无法区分正类和负类。

对数损失

对数损失(Logistic损失)或交叉熵损失是评估分类问题性能的主要指标之一。

对于单个样本,真实标签y∈{0,1}和概率估计p=Pr(y=1),对数损失为:

结论

了解机器学习模型在未见数据上的表现是使用这些评估指标的主要目的。对于平衡数据集,准确率、精确率、召回率等分类指标是评估分类模型的好方法,但如果数据不平衡,则ROC/AUC等其他方法在评估模型性能时表现更好。

ROC曲线不仅仅是一个单一的数字,而是一条提供分类器行为细微细节的曲线。快速比较许多ROC曲线也很困难。

常见问题

Q1. 什么是分类指标?
A. 分类指标是用于评估分类模型性能的评估指标。常见指标包括准确率(正确预测的比例)、精确率(真正例除以总预测正例)、召回率(真正例除以总实际正例)、F1分数(精确率和召回率的调和平均数)和接收者操作特征曲线下面积(AUC-ROC)。

Q2. 评估分类器性能的4个指标是什么?
A. 评估分类器性能的四个常用指标是:
1. 准确率:正确预测占总预测的比例。
2. 精确率:真正例预测占总正例预测的比例(精确率=真正例/(真正例+假正例))。
3. 召回率(灵敏度或真正例率):真正例预测占总实际正例实例的比例(召回率=真正例/(真正例+假反例))。
4. F1分数:精确率和召回率的调和平均数,提供两者之间的平衡(F1分数=2((精确率召回率)/(精确率+召回率)))。
这些指标有助于评估分类器在不同类别实例中的分类效果。

版权声明:
作者:5ifenxi
链接:https://5ifenxi.com/archives/2053.html
来源:爱分析网(5iFenXi.com)
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>