模型评估标准
总结
真正例率=TP/(TP+FN) 总的正样本里面被预测为正的占比(召回率)
假正例率=FP/(FP+TN) 总的负样本里面被预测为正的占比
真负例率=TN/(FP+TN) 总的负样本里面被预测为负的占比(特异性)
假负例率=FN/(TP+FN) 总的正样本里面被预测为负的占比
精准率=TP / (TP + FP) 真正例在预测为正的占比
准确率(Accuracy)= (TP + TN) / (TP + TN + FP + FN) 正确分类的样本在总样本的占比
评估指标
- AUC (Area Under the ROC Curve):
- AUC 表示 ROC 曲线下的面积,通常在 0 到 1 之间。
- ROC 曲线是以不同的分类阈值为基础绘制的,它显示了在不同阈值下真正例率(True Positive Rate,也称为召回率)与假正例率(False Positive Rate)之间的权衡。
- AUC 衡量了模型能够正确分类正例和负例的能力,AUC 值越接近 1,模型性能越好。
- ROC (Receiver Operating Characteristic) Curve:
- ROC 曲线是一条以假正例率(FPR)为 x 轴,真正例率(TPR,召回率)为 y 轴的曲线。
- ROC 曲线可用于可视化模型在不同分类阈值下的性能,帮助选择最合适的阈值。
- ROC 曲线越接近左上角,模型性能越好。
- F1-Score:
- F1-Score 是精确度(Precision)和召回率(Recall)的调和平均,用于综合考虑分类模型的性能。
- 公式:F1-Score = 2 * (Precision * Recall) / (Precision + Recall)
- F1-Score 的值介于 0 和 1 之间,通常用于平衡精确度和召回率,越高说明模型在精准性和召回率之间取得更好的平衡。
- Precision (精确度):
- Precision 表示模型在预测为正例的样本中真正例的比例,也称为阳性预测的准确性。
- 公式:Precision = TP / (TP + FP)
- 高 Precision 表示模型对于正例的预测相对较准确。
- Recall (召回率):
- Recall 表示模型正确识别的正例样本占所有正例样本的比例,也称为真正例率。
- 公式:Recall = TP / (TP + FN)
- 高 Recall 表示模型能够捕获更多的正例样本。
- average_precision_score:
- average_precision_score 是 Precision-Recall 曲线下的面积(平均精确度),用于度量分类模型在不同召回率水平下的平均精确度。
- 它通常用于不平衡数据集中,更关注正例的精确度和召回率。
混淆矩阵
- 真正例(True Positives,TP):
- 表示模型正确地将正例样本预测为正例。
- 例如,在医学诊断中,模型正确地识别了患有疾病的病人。
- 真负例(True Negatives,TN):
- 表示模型正确地将负例样本预测为负例。
- 例如,在垃圾邮件检测中,模型正确地将非垃圾邮件标记为非垃圾邮件。
- 假正例(False Positives,FP):
- 表示模型将负例样本错误地预测为正例。
- 例如,在医学诊断中,模型错误地将健康人预测为患有疾病。
- 假负例(False Negatives,FN):
- 表示模型将正例样本错误地预测为负例。
- 例如,在安全检查中,模型错误地将危险物品预测为安全物品。
- 真正例率(TPR)/ 召回率(Recall):
- TPR 表示模型正确地将正例样本预测为正例的比例。
- 计算公式:TPR = TP / (TP + FN)
- TPR 衡量了模型对于正例样本的识别能力,即模型能够捕获多少真正例。
- 假正例率(FPR):
- FPR 表示模型错误地将负例样本预测为正例的比例。
- 计算公式:FPR = FP / (FP + TN)
- FPR 衡量了模型在负例样本中误报的程度,即模型错误地将多少负例预测为正例。
- 真负例率(TNR):
- TNR 表示模型正确地将负例样本预测为负例的比例。
- 计算公式:TNR = TN / (TN + FP)
- TNR 也被称为特异性(Specificity),它衡量了模型在负例样本中的预测准确性,即模型能够多大程度地正确预测负例。
- 假负例率(FNR):
- FNR 表示模型错误地将正例样本预测为负例的比例。
- 计算公式:FNR = FN / (FN + TP)
- FNR 衡量了模型在正例样本中的错误预测程度,即模型未能捕获多少真正例。
- 正负样本的选择
- 标准评估指标
- 回归问题的评估指标
- SSE 和方差均方误差(MSE)
- 均方根误差(RMSE)
- R Squared
- 分类问题的评估指标
- 错误率
- 召回率(查全率)
- 精确率(查准率)
- 混淆矩阵和分类报告
- P-R曲线准确率
- f1分值
- 什么时候关注召回率,什么时候关注精确率
- 概率密度评估指标
- 概率密度曲线
- 图相对熵(K-L散度)
- 概率、信息量
- 信息熵
- 相对熵(K-L散度)
- 交叉熵
- 概率分布评估指标
- ROC曲线KS曲线提升图提升图的另一种形式洛伦兹图(累计提升图)KS曲线
模型的开发基于历史数据,而模型的使用则针对未来的数据。为了模拟这种建模方式,将数据集分为三部分:
训练集、验证集和测试集
- 训练集:
用来训练模型,确定模型的权值、偏置等
- 验证集:
验证集用于模型的选择,验证集只是为了选择超参数,比如网络层数、网络节点数、迭代次数、学习率这些都叫超参数
- 测试集:
仅仅使用于模型的评价
- 训练误差、经验误差:
模型在训练集上的误差(即真实结果与预测结果间的差异)称为训练误差或经验误差
- 泛化误差:
模型在验证集与测试集上的误差称为泛化误差
而单个模型在训练集上训练希望训练误差最小,并在验证集上测试模型表现以确定单个模型的最优参数;当有多个候选模型时,需要在测试集上对比不同模型的测试表现,以选出最优的模型,一般将这个过程称为嵌套交叉验证
Last update: 2023-9-17
type
status
date
slug
summary
tags
category
icon
password
这里是关于我笔记,希望你能获取到你想要的知识 🧐
