第四次组会 - 北京网站建设

混淆矩阵

‌混淆矩阵是一种用于可视化分类模型性能的表格，其中每一行代表实际的类别，每一列代表预测的类别。通过混淆矩阵，我们可以直观地看到模型对各类别的预测效果，包括‌真阳性、‌真阴性、假阳性和假阴性等指标。

混淆矩阵的基本结构

‌行‌：代表实际的类别。
‌列‌：代表预测的类别。

主要指标解释

‌真阳性（True Positives, TP）‌：实际为正且预测也为正的样本数。
‌真阴性（True Negatives, TN）‌：实际为负且预测也为负的样本数。
‌假阳性（False Positives, FP）‌：实际为负但预测为正的样本数。
‌假阴性（False Negatives, FN）‌：实际为正但预测为负的样本数。

如何阅读混淆矩阵

‌对角线‌上的数字表示正确分类的样本数，即真阳性和真阴性。
‌非对角线‌上的数字表示错误分类的样本数，即假阳性和假阴性。

实例说明

假设有一个二分类问题的混淆矩阵如下：

textCopy Code|      | 实际为正 | 实际为负 |
|------|----------|----------|
| 预测为正 |   TP     |   FP     |
| 预测为负 |   FN     |   TN     |

‌TP（真阳性）‌：表示模型正确预测为正的样本数。
‌FP（假阳性）‌：表示模型错误预测为正的样本数。
‌FN（假阴性）‌：表示模型错误预测为负的样本数。
‌TN（真阴性）‌：表示模型正确预测为负的样本数。

通过混淆矩阵，我们可以计算出精确率、召回率等评估指标，从而全面评估模型的性能。例如，精确率是正确预测为正的样本数除以所有预测为正的样本数，而召回率是正确预测为正的样本数除以实际为正的样本数。‌

全局平均池化

全局平均池化层（GAP）在2013年的《Network In Network》（NIN）中首次提出，于是便风靡各种卷积神经网络。为什么它这么受欢迎呢？一般情况下，卷积层用于提取二维数据如图片、视频等的特征，针对于具体任务（分类、回归、图像分割）等，卷积层后续会用到不同类型的网络，拿分类问题举例，最简单的方式就是将卷积网络提取出的特征（feature map）输入到softmax全连接层对应不同的类别。首先，这里的feature map是二维多通道的数据结构，类似于三个通道（红黄绿）的彩色图片，也就是这里的feature map具有空间上的信息；其次，在GAP被提出之前，常用的方式是将feature map直接拉平成一维向量（下图左），但是GAP不同，是将每个通道的二维图像做平均，最后也就是每个通道对应一个均值（下图右）。

可以看到，GAP的设计非常简单直接，但是为什么要这么做呢？或者说GAP区别于全连接的方式有哪些优势呢？

抑制过拟合。直接拉平做全连接层的方式依然保留了大量的空间信息，假设feature map是32个通道的1010图像，那么拉平就得到了321010的向量，如果是最后一层是对应两类标签，那么这一层就需要32002的权重矩阵，而GAP不同，将空间上的信息直接用均值代替，32个通道GAP之后得到的向量都是32的向量，那么最后一层只需要32*2的权重矩阵。相比之下GAP网络参数会更少，而全连接更容易在大量保留下来的空间信息上面过拟合。
可解释的雏形。在《NIN》原文当中有这样一句话，GAP相比全连接更加自然地加强了类别和feature map之间的联系，（这个类别指的是分类的类别）因此，feature map可以很容易地解释成categories confidence maps。后半句可能有些难以理解，这块我们在第二节展开来讲。如果之前对Class Activation Mapping （CAM）有过了解的同学可能会不禁感叹：“这其实就是CAM的核心思想！”
输入尺寸更加灵活。在第1点的举例里面可以看到feature map经过GAP后的神经网络参数不再与输入图像尺寸的大小有关，也就是输入图像的长宽可以不固定。

除了这些优势，GAP也有个缺点——训练的收敛速度会变慢。

TF-IDF模型

文本处理领域还有一种特征提取方法，叫做TF-IDF模型（term frequency–inverse document frequency，词频与逆向文件频率）。TF-IDF是一种统计方法，用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。 TF-IDF的主要思想是，如果某个词或短语在一篇文章中出现的频率TF(Term Frequency，词频)，词频高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上是：TF * IDF。TF表示词条在文档d中出现的频率。IDF（inverse document frequency，逆向文件频率）的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其他类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其他类文档。

词袋模型

文本特征提取有两个非常重要的模型：

词集模型：单词构成的集合，集合自然每个元素都只有一个，也即词集中的每个单词都只有一个。

词袋模型：在词集的基础上如果一个单词在文档中出现不止一次，统计其出现的次数（频数）。

两者本质上的区别，词袋是在词集的基础上增加了频率的维度，词集只关注有和没有，词袋还要关注有几个。

词汇表模型

词袋模型可以很好的表现文本由哪些单词组成，但是却无法表达出单词之间的前后关系，于是人们借鉴了词袋模型的思想，使用生成的词汇表对原有句子按照单词逐个进行编码。