混淆矩阵
混淆矩阵是一种用于可视化分类模型性能的表格,其中每一行代表实际的类别,每一列代表预测的类别。通过混淆矩阵,我们可以直观地看到模型对各类别的预测效果,包括真阳性、真阴性、假阳性和假阴性等指标。
混淆矩阵的基本结构
-
行:代表实际的类别。
-
列:代表预测的类别。
主要指标解释
-
真阳性(True Positives, TP):实际为正且预测也为正的样本数。
-
真阴性(True Negatives, TN):实际为负且预测也为负的样本数。
-
假阳性(False Positives, FP):实际为负但预测为正的样本数。
-
假阴性(False Negatives, FN):实际为正但预测为负的样本数。
如何阅读混淆矩阵
-
对角线上的数字表示正确分类的样本数,即真阳性和真阴性。
-
非对角线上的数字表示错误分类的样本数,即假阳性和假阴性。
实例说明
假设有一个二分类问题的混淆矩阵如下:
textCopy Code| | 实际为正 | 实际为负 | |------|----------|----------| | 预测为正 | TP | FP | | 预测为负 | FN | TN |
-
TP(真阳性):表示模型正确预测为正的样本数。
-
FP(假阳性):表示模型错误预测为正的样本数。
-
FN(假阴性):表示模型错误预测为负的样本数。
-
TN(真阴性):表示模型正确预测为负的样本数。
通过混淆矩阵,我们可以计算出精确率、召回率等评估指标,从而全面评估模型的性能。例如,精确率是正确预测为正的样本数除以所有预测为正的样本数,而召回率是正确预测为正的样本数除以实际为正的样本数。
全局平均池化
全局平均池化层(GAP)在2013年的《Network In Network》(NIN)中首次提出,于是便风靡各种卷积神经网络。为什么它这么受欢迎呢? 一般情况下,卷积层用于提取二维数据如图片、视频等的特征,针对于具体任务(分类、回归、图像分割)等,卷积层后续会用到不同类型的网络,拿分类问题举例,最简单的方式就是将卷积网络提取出的特征(feature map)输入到softmax全连接层对应不同的类别。首先,这里的feature map是二维多通道的数据结构,类似于三个通道(红黄绿)的彩色图片,也就是这里的feature map具有空间上的信息;其次,在GAP被提出之前,常用的方式是将feature map直接拉平成一维向量(下图左),但是GAP不同,是将每个通道的二维图像做平均,最后也就是每个通道对应一个均值(下图右)。
可以看到,GAP的设计非常简单直接,但是为什么要这么做呢?或者说GAP区别于全连接的方式有哪些优势呢?
-
抑制过拟合。直接拉平做全连接层的方式依然保留了大量的空间信息,假设feature map是32个通道的1010图像,那么拉平就得到了321010的向量,如果是最后一层是对应两类标签,那么这一层就需要32002的权重矩阵,而GAP不同,将空间上的信息直接用均值代替,32个通道GAP之后得到的向量都是32的向量,那么最后一层只需要32*2的权重矩阵。相比之下GAP网络参数会更少,而全连接更容易在大量保留下来的空间信息上面过拟合。
-
可解释的雏形。在《NIN》原文当中有这样一句话,GAP相比全连接更加自然地加强了类别和feature map之间的联系,(这个类别指的是分类的类别)因此,feature map可以很容易地解释成categories confidence maps。后半句可能有些难以理解,这块我们在第二节展开来讲。如果之前对Class Activation Mapping (CAM) 有过了解的同学可能会不禁感叹:“这其实就是CAM的核心思想!”
-
输入尺寸更加灵活。在第1点的举例里面可以看到feature map经过GAP后的神经网络参数不再与输入图像尺寸的大小有关,也就是输入图像的长宽可以不固定。
除了这些优势,GAP也有个缺点——训练的收敛速度会变慢。
TF-IDF模型
文本处理领域还有一种特征提取方法,叫做TF-IDF模型(term frequency–inverse document frequency,词频与逆向文件频率)。TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。 TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF(Term Frequency,词频),词频高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF * IDF。TF表示词条在文档d中出现的频率。IDF(inverse document frequency,逆向文件频率)的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其他类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其他类文档。
词袋模型
文本特征提取有两个非常重要的模型:
词集模型:单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个。
词袋模型:在词集的基础上如果一个单词在文档中出现不止一次,统计其出现的次数(频数)。
两者本质上的区别,词袋是在词集的基础上增加了频率的维度,词集只关注有和没有,词袋还要关注有几个。
词汇表模型
词袋模型可以很好的表现文本由哪些单词组成,但是却无法表达出单词之间的前后关系,于是人们借鉴了词袋模型的思想,使用生成的词汇表对原有句子按照单词逐个进行编码。