seo自动优化软件下载_网络传奇_北京核心词优化市场_抖音宣传推广方案

时间:2025/8/27 7:33:09来源：https://blog.csdn.net/sylviiiiiia/article/details/146201702 浏览次数:1次

防止看完一遍就忘记了，常常复习

术语

数据集 dataset
每条记录=示例instance/样本sample=特征向量feature vector
属性attribute=特征feature，其中的值称为属性值value，张成的空间称为属性空间/样本空间 space
属性的维数dimensionality
训练集 training set
潜在规律自身为真实ground-truth，学到的是假设hypothesis
示例结果的信息称为标记/标签label
学习任务有回归（连续）regression，分类（离散）classification，聚类clustering
监督学习supervised learning 无监督学习unsupervised learning
泛化generalization
分布distribution 独立同分布i.i.d. independent and identically distributed
归纳induction 从特殊到一般概念学习假设空间
没有免费的午餐定理NFL

模型评估

经验误差和泛化误差

训练误差training error 泛化误差 generaliization error
欠拟合underfitting 过拟合overfitting 无法避免

对泛化误差进行评估

用测试误差近似泛化误差

留出法 hold-out
直接划分出百分之多少的训练集和测试集，由于一次不够稳定，随机划分n次进行平均
k折交叉验证cross validation
将数据集划分为k个大小相同的互斥子集，每次把k-1个子集作为训练集，剩余的1个作为测试集，验证k次
留一法 Leave-one-out
交叉验证的特例：k=m，只留下1个样例作为测试集，准确但开销大
自助法bootstrapping
有放回地抽取m次，得到一个m个样本的数据集D’，约有36.8%的样本不会被采样到，可作为测试集

性能度量

混淆矩阵
TP,FN
FP,TN
错误率与精度（分类任务）
错误率=分类错误/总数
精度accuracy=分类正确/综述
查准率，查全率，F1
查准率=准确率precision=TP/(TP+FP) 所有挑出的好瓜里面真好瓜的比例
查全率=召回率recall=TP/(TP+FN) 所有真好瓜被正确挑出的比例
查全率和查准率往往不可兼得，以查全率为横轴，查准率为纵轴，可画出P-R曲线，可以完全包住另一条曲线的曲线性能较好，还有一些度量指标如：

平衡点Break-even point 查准率=查全率的值
F1度量 1/F1是查准率和查全率的调和平均，所以F1=2PR/(P+R)
F1的一般形式是 $F_\beta$ ，给召回率加一个系数Beta

当有多个混淆矩阵时，可使用宏查准率、宏查全率，计算方式是分别计算每一个的P,R，然后平均；还有微查准率、微查全率，计算方式是先将每个混淆矩阵的TP,FP,TN,FN平均，再计算P,R

ROC及其下曲线AUC
ROC是受试者工作特征receiver operating characteristic，是一条曲线，横轴是假正例率FPR=FP/(TN+FP),纵轴是真正例率TPR=TP/(TP+FN)
ROC曲线下的面积是AUC（area under ROC curve)
代价敏感错误率与代价曲线
为不同错误赋予非均等代价

比较检验

线性模型

$f(x)=w_1x_1+...+w_dx_d+b=w^Tx+b$

线性回归

最经典的线性模型

对数几率回归（逻辑回归）

关键字：seo自动优化软件下载_网络传奇_北京核心词优化市场_抖音宣传推广方案

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：