当前位置: 首页> 科技> 名企 > 国家企业信用信息公示网官网查询_跨境电商平台网站建设广州_灵宝seo公司_免费域名注册二级域名

国家企业信用信息公示网官网查询_跨境电商平台网站建设广州_灵宝seo公司_免费域名注册二级域名

时间:2025/7/15 5:11:54来源:https://blog.csdn.net/m0_69435612/article/details/143631227 浏览次数:0次
国家企业信用信息公示网官网查询_跨境电商平台网站建设广州_灵宝seo公司_免费域名注册二级域名

模型构建到使用的过程:

1.数据预处理 ===>提高模型性能和准确性

  • 数据清洗                ====>删除多余的列,提高数据质量
  • 数据标注                ====>打标签,增强模型的准确性和鲁棒性
  • 缺失值处理             ====>提高数据质量
  • 特征提取                ====>减少数据维度
  • 稳态数据筛选         ====>减少数据波动,增强模型的稳定性
  • 标准化、归一化     ====>标准化数据格式

2.划分特征和标签

3.标签编码

4.训练集和测试集的划分

5.构建模型

6.训练模型

7.保存模型

  • 保存算法模型
  • 保存编码器 

如果在训练时使用了 LabelEncoder 对标签进行了编码,那么您需要保存并重新加载同样的 LabelEncoder,以保证预测的结果能正确解码。

  • 保存标准器 

在预处理新数据时使用和训练数据一致的 StandardScaler,而不是重新创建 StandardScaler 实例。

8.模型评估

评估参数

  • 准确率(Accuracy)

    • 定义:模型预测正确的样本数量占总样本数的比例。
    • 适用场景:适用于数据平衡的分类问题。
  • 精确率(Precision)

    • 定义:预测为正类的样本中,实际为正类的比例。
    • 适用场景:在假阳性(FP)代价较高的场景,如垃圾邮件检测。
  • 召回率(Recall)

    • 定义:实际为正类的样本中,模型预测为正类的比例。
    • 适用场景:在假阴性(FN)代价较高的场景,如疾病筛查。
  • F1分数(F1 Score)

    • 定义:精确率和召回率的调和平均值,用于综合评估模型的分类性能。
    • 适用场景:适合样本不平衡的场景,尤其是需要平衡精确率和召回率的情况。
  • ROC曲线与AUC值

    • ROC曲线:绘制模型在不同阈值下的真阳性率和假阳性率的关系图。
    • AUC值:ROC曲线下的面积,用于评估模型的分类能力。
    • 适用场景:二分类任务,尤其是样本不平衡时。
  • 混淆矩阵(Confusion Matrix)

    • 定义:显示预测结果和真实结果的矩阵,包含TP、FP、TN、FN四个值。
    • 适用场景:用于详细分析分类模型的错误类型。
  • Kappa系数

    • 定义:用于评估分类模型预测的精确性和随机猜测结果之间的差异。
    • 适用场景:适用于多分类任务。

评估内容

  • 总体对训练集和测试集做评估
  • 分别对训练集和测试集不同的标签类型的数据做评估

9.应用模型    

  • 数据预处理(预处理器的使用)
  • 加载模型
  • 加载编码器
  • 加载标准器
  • 使用模型进行预测

未完待续~~~

关键字:国家企业信用信息公示网官网查询_跨境电商平台网站建设广州_灵宝seo公司_免费域名注册二级域名

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: