| 模型名称 | 含义 |
|---|---|
| DecisionTreeClassifier | 决策树是一种基于树结构的分类模型,它通过对数据的分裂来构建一棵树,每个节点代表一个特征,每个分支代表一个特征值,最终的叶子节点代表一个类别。 |
| KNeighborsClassifier | K 近邻算法是一种基于实例的学习方法,它通过计算待分类样本与训练集中所有样本的距离,选取距离最近的 K 个样本作为邻居,然后根据邻居的标签来预测待分类样本的标签。 |
| GaussianNB | 高斯朴素贝叶斯算法是一种基于贝叶斯定理和特征独立假设的分类算法,它假设不同类别的特征值服从高斯分布 |
| MLPClassifier | MLP 是一种基于神经网络的分类算法,它由多个神经元组成,每个神经元接收输入信号并产生输出信号,然后将输出信号传递给下一层神经元进行处理,最终输出分类结果。 |
| SVC | SVM 是一种基于最大间隔分类的算法,它通过将不同类别的数据点分隔开来构建分类模型,在二维空间中,它可以使用超平面将不同类别的数据点分隔开来。在更高维的空间中,它可以使用超平面或超曲面将不同类别的数据点分隔开来。 |
| RandomForestClassifier | 随机森林是一种基于决策树的集成学习算法,它通过随机选择特征和样本来构建多个决策树,并将它们组合成一个更加稳健的分类模型。 |
| RNN | RNN(循环神经网络)是一种处理时间序列数据的深度学习模型。在分类问题中,RNN通过捕捉输入数据的时间依赖关系来实现高效分类。RNN在每个时间步接收输入向量,并根据前一时间步的隐藏状态计算输出向量。通过更新隐藏状态,RNN能够保留历史信息,从而在处理序列数据时表现出优越的性能。 |
| CNN | CNN(卷积神经网络)是一种深度学习模型,适用于处理网格结构数据,如图像。在分类问题中,CNN通过卷积层提取局部特征,ReLU激活函数学习复杂特征,池化层降低空间尺寸,最后全连接层将特征映射到输出类别。 |
| 名称 | 含义 |
|---|---|
| TF / PN | TF(机器判断的对不对,T 对 F 不对) PN (机器判断是不是,P 是 N 不是) |
| True Positive(TP) | 真正类。样本的真实类别是正类,并且模型识别的结果也是正类。 |
| True Negative(TN) | 真负类。样本的真实类别是负类,并且模型将其识别为负类。 |
| False Positive(FP) | 假正类。样本的真实类别是负类,但是模型将其识别为正类 |
| False Negative(FN) | 假负类。样本的真实类别是正类,但是模型将其识别为负类 |
| 混淆矩阵 | 混淆矩阵是对分类问题的预测结果的总结。使用计数值汇总正确和不正确预测的数量,并按每个类进行细分,这种对结果的分解克服了仅使用分类准确率所带来的局限性 矩阵的行表示真实值,矩阵的列表示预测值 |
| 名称 | 含义 | 公式 |
|---|---|---|
| 正确率或者准确率(Precision) | 又称为查准率,表示在模型识别为正类的样本中,真正为正类的样本所占的比例。一般情况下,查准率越高,说明模型的效果越好。 | Precision = TP/(TP+FP) |
| 精确率 | 精确率是最常用的分类性能指标。可以用来表示模型的精度,即模型识别正确的个数/样本的总个数。一般情况下,模型的精度越高,说明模型的效果越好。 | Accuracy = (TP+TN)/(TP+FN+FP+TN) |
| 召回率(Recall)或Sensitivity(敏感指标,True Positive Rate,TPR)或查全率 | 又称为查全率,召回率表现出在实际正样本中,分类器能预测出多少。表示的是,模型正确识别出为正类的样本的数量占总的正类样本数量的比值。一般情况下,Recall越高,说明有更多的正类样本被模型预测正确,模型的效果越好。 | Recall = TP/(TP+FN) |
| Fβ_Score | 物理意义就是将正确率和召回率的一种加权平均,在合并的过程中,召回率的权重是正确率的β倍。 | 比较常用的是F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。F1_Score:数学定义为 F1分数(F1-Score),又称为平衡 F分数(Balanced Score),它被定义为正确率和召回率的调和平均数。 |
| ROC(Receiver Operating Characteristic)曲线 | 以真阳性率(True Positive Rate,TPR)为纵坐标,假阳性率(False Positive Rate,FPR)为横坐标,绘制了在不同分类阈值下的真阳性率和假阳性率之间的折衷关系 | - |
| AUC(Area Under the Curve) | ROC曲线下的面积,表示模型在不同阈值下的性能 | 微积分法:绘制出ROC曲线后,用微积分思想得到曲线下面积。概率法:AUC的另一层含义是:一个正、负样本对,将正样本预测为正的概率比将负样本预测为正的概率大的可能性。总样本对数为ab个,将正样本预测为正的概率大于负样本预测为正的概率的对子记作1,累计求和记作c,那么AUC就是c/(ab)。 |