模型评估标准

总结

真正例率=TP/(TP+FN) 总的正样本里面被预测为正的占比(召回率)
假正例率=FP/(FP+TN) 总的负样本里面被预测为正的占比
真负例率=TN/(FP+TN) 总的负样本里面被预测为负的占比(特异性)
假负例率=FN/(TP+FN) 总的正样本里面被预测为负的占比
精准率=TP / (TP + FP) 真正例在预测为正的占比
准确率(Accuracy)= (TP + TN) / (TP + TN + FP + FN) 正确分类的样本在总样本的占比

评估指标

  1. AUC (Area Under the ROC Curve):
      • AUC 表示 ROC 曲线下的面积,通常在 0 到 1 之间。
      • ROC 曲线是以不同的分类阈值为基础绘制的,它显示了在不同阈值下真正例率(True Positive Rate,也称为召回率)与假正例率(False Positive Rate)之间的权衡。
      • AUC 衡量了模型能够正确分类正例和负例的能力,AUC 值越接近 1,模型性能越好。
  1. ROC (Receiver Operating Characteristic) Curve:
      • ROC 曲线是一条以假正例率(FPR)为 x 轴,真正例率(TPR,召回率)为 y 轴的曲线。
      • ROC 曲线可用于可视化模型在不同分类阈值下的性能,帮助选择最合适的阈值。
      • ROC 曲线越接近左上角,模型性能越好。
  1. F1-Score:
      • F1-Score 是精确度(Precision)和召回率(Recall)的调和平均,用于综合考虑分类模型的性能。
      • 公式:F1-Score = 2 * (Precision * Recall) / (Precision + Recall)
      • F1-Score 的值介于 0 和 1 之间,通常用于平衡精确度和召回率,越高说明模型在精准性和召回率之间取得更好的平衡。
  1. Precision (精确度):
      • Precision 表示模型在预测为正例的样本中真正例的比例,也称为阳性预测的准确性。
      • 公式:Precision = TP / (TP + FP)
      • 高 Precision 表示模型对于正例的预测相对较准确。
  1. Recall (召回率):
      • Recall 表示模型正确识别的正例样本占所有正例样本的比例,也称为真正例率。
      • 公式:Recall = TP / (TP + FN)
      • 高 Recall 表示模型能够捕获更多的正例样本。
  1. average_precision_score:
      • average_precision_score 是 Precision-Recall 曲线下的面积(平均精确度),用于度量分类模型在不同召回率水平下的平均精确度。
      • 它通常用于不平衡数据集中,更关注正例的精确度和召回率。
 

混淆矩阵

  1. 真正例(True Positives,TP)
      • 表示模型正确地将正例样本预测为正例。
      • 例如,在医学诊断中,模型正确地识别了患有疾病的病人。
  1. 真负例(True Negatives,TN)
      • 表示模型正确地将负例样本预测为负例。
      • 例如,在垃圾邮件检测中,模型正确地将非垃圾邮件标记为非垃圾邮件。
  1. 假正例(False Positives,FP)
      • 表示模型将负例样本错误地预测为正例。
      • 例如,在医学诊断中,模型错误地将健康人预测为患有疾病。
  1. 假负例(False Negatives,FN)
      • 表示模型将正例样本错误地预测为负例。
      • 例如,在安全检查中,模型错误地将危险物品预测为安全物品。
  1. 真正例率(TPR)/ 召回率(Recall)
      • TPR 表示模型正确地将正例样本预测为正例的比例。
      • 计算公式:TPR = TP / (TP + FN)
      • TPR 衡量了模型对于正例样本的识别能力,即模型能够捕获多少真正例。
  1. 假正例率(FPR)
      • FPR 表示模型错误地将负例样本预测为正例的比例。
      • 计算公式:FPR = FP / (FP + TN)
      • FPR 衡量了模型在负例样本中误报的程度,即模型错误地将多少负例预测为正例。
  1. 真负例率(TNR)
      • TNR 表示模型正确地将负例样本预测为负例的比例。
      • 计算公式:TNR = TN / (TN + FP)
      • TNR 也被称为特异性(Specificity),它衡量了模型在负例样本中的预测准确性,即模型能够多大程度地正确预测负例。
  1. 假负例率(FNR)
      • FNR 表示模型错误地将正例样本预测为负例的比例。
      • 计算公式:FNR = FN / (FN + TP)
      • FNR 衡量了模型在正例样本中的错误预测程度,即模型未能捕获多少真正例。
 
 
 
 
  • 正负样本的选择
  • 标准评估指标
  • 回归问题的评估指标
  • SSE 和方差均方误差(MSE)
  • 均方根误差(RMSE)
  • R Squared
  • 分类问题的评估指标
  • 错误率
  • 召回率(查全率)
  • 精确率(查准率)
  • 混淆矩阵和分类报告
  • P-R曲线准确率
  • f1分值
  • 什么时候关注召回率,什么时候关注精确率
  • 概率密度评估指标
  • 概率密度曲线
  • 图相对熵(K-L散度)
  • 概率、信息量
  • 信息熵
  • 相对熵(K-L散度)
  • 交叉熵
  • 概率分布评估指标
  • ROC曲线KS曲线提升图提升图的另一种形式洛伦兹图(累计提升图)KS曲线
 
 
模型的开发基于历史数据,而模型的使用则针对未来的数据。为了模拟这种建模方式,将数据集分为三部分:
训练集、验证集和测试集
  • 训练集:
用来训练模型,确定模型的权值、偏置等
  • 验证集:
验证集用于模型的选择,验证集只是为了选择超参数,比如网络层数、网络节点数、迭代次数、学习率这些都叫超参数
  • 测试集:
仅仅使用于模型的评价
  • 训练误差、经验误差:
模型在训练集上的误差(即真实结果与预测结果间的差异)称为训练误差或经验误差
  • 泛化误差:
模型在验证集与测试集上的误差称为泛化误差
而单个模型在训练集上训练希望训练误差最小,并在验证集上测试模型表现以确定单个模型的最优参数;当有多个候选模型时,需要在测试集上对比不同模型的测试表现,以选出最优的模型,一般将这个过程称为嵌套交叉验证