防止看完一遍就忘记了,常常复习
术语
数据集 dataset
每条记录=示例instance/样本sample=特征向量feature vector
属性attribute=特征feature,其中的值称为属性值value,张成的空间称为属性空间/样本空间 space
属性的维数dimensionality
训练集 training set
潜在规律自身为真实ground-truth,学到的是假设hypothesis
示例结果的信息称为标记/标签label
学习任务有回归(连续)regression,分类(离散)classification,聚类clustering
监督学习supervised learning 无监督学习unsupervised learning
泛化generalization
分布distribution 独立同分布i.i.d. independent and identically distributed
归纳induction 从特殊到一般 概念学习 假设空间
没有免费的午餐定理NFL
模型评估
经验误差和泛化误差
训练误差training error 泛化误差 generaliization error
欠拟合underfitting 过拟合overfitting 无法避免
对泛化误差进行评估
用测试误差近似泛化误差
- 留出法 hold-out
直接划分出百分之多少的训练集和测试集,由于一次不够稳定,随机划分n次进行平均 - k折交叉验证cross validation
将数据集划分为k个大小相同的互斥子集,每次把k-1个子集作为训练集,剩余的1个作为测试集,验证k次 - 留一法 Leave-one-out
交叉验证的特例:k=m,只留下1个样例作为测试集,准确但开销大 - 自助法bootstrapping
有放回地抽取m次,得到一个m个样本的数据集D’,约有36.8%的样本不会被采样到,可作为测试集
性能度量
- 混淆矩阵
TP,FN
FP,TN - 错误率与精度(分类任务)
错误率=分类错误/总数
精度accuracy=分类正确/综述 - 查准率,查全率,F1
查准率=准确率precision=TP/(TP+FP) 所有挑出的好瓜里面真好瓜的比例
查全率=召回率recall=TP/(TP+FN) 所有真好瓜被正确挑出的比例
查全率和查准率往往不可兼得,以查全率为横轴,查准率为纵轴,可画出P-R曲线,可以完全包住另一条曲线的曲线性能较好,还有一些度量指标如:
- 平衡点Break-even point 查准率=查全率的值
- F1度量 1/F1是查准率和查全率的调和平均,所以F1=2PR/(P+R)
- F1的一般形式是 F β F_\beta Fβ,给召回率加一个系数Beta
当有多个混淆矩阵时,可使用宏查准率、宏查全率,计算方式是分别计算每一个的P,R,然后平均;还有微查准率、微查全率,计算方式是先将每个混淆矩阵的TP,FP,TN,FN平均,再计算P,R
- ROC及其下曲线AUC
ROC是受试者工作特征receiver operating characteristic,是一条曲线,横轴是假正例率FPR=FP/(TN+FP),纵轴是真正例率TPR=TP/(TP+FN)
ROC曲线下的面积是AUC(area under ROC curve) - 代价敏感错误率与代价曲线
为不同错误赋予非均等代价
比较检验
线性模型
f ( x ) = w 1 x 1 + . . . + w d x d + b = w T x + b f(x)=w_1x_1+...+w_dx_d+b=w^Tx+b f(x)=w1x1+...+wdxd+b=wTx+b
线性回归
最经典的线性模型