当前位置: 首页> 游戏> 游戏 > 文本数据预处理

文本数据预处理

时间:2025/7/11 18:48:00来源:https://blog.csdn.net/m0_46926492/article/details/139501222 浏览次数:0次

1.定义

  • 数据预处理:在数据分析之前,对数据进行初步处理
    • 缺失值填写
    • 噪声处理
    • 不一致数据修正
    • 中文分词等

2. 文本数据预处理相关操作

2.1. 中文分词

  • 安装相关库
    pip install jiaba
    

2.1.1 相关使用

  • 全模式
    • 一段文本种所有可能出现地词语都扫描出来,一段文本从不同地角度切分成不同地词语,分词后地信息组合会有冗余,不在是原来的文本。
    • 优点:速度快
    • 缺点:不能解决歧义问题,分词结果不正确
      text = "我失业5月份了,我想找一个python数据分析师的工作。"  
      data = jieba.cut(text,cut_all=True)
      print(type(data))
      print("[全模式]: ", "/".join(data))
      

在这里插入图片描述

  • 精确模式
    • 一段文本精确地切分成若干个中文单词,若干个中文单词经过组合,精确还原原先地文本,不存在冗余单词。
    • 优点:能使句子精准分隔开,不会有冗余问题
    text = "我失业5月份了,我想找一个python数据分析师的工作。"  
    data = jieba.cut(text)  
    print("[精确模式 ]: ", "/".join(data))
    

在这里插入图片描述

  • 搜索引擎模式
    • 精确模式基础上,对发现长的词语,再次切分,进而合适搜索殷勤对短词语的索引和搜索,会有冗余。
    text = "我失业5月份了,我想找一个python数据分析师的工作。"  
    data = jieba.cut_for_search(text)    
    print(u"[搜索引擎模式]: ", "/".join(data))
    

2.2 文本数据清洗

2.2.1 脏数据分类

  • 残缺数据
    • 信息存在缺失的数据,需要查找数据补齐存入文件或数据库
    • 解决:对于空值或缺失值,采用估算方法填充,例如:均值,中位数,众数,最大值,最小值等。
  • 重复数据
    • 重复数据不能轻易删除,要与客户及业务意义辨别,先校验和确认数据数否有误
    • 解决:人为识别,或者采用相似度的方法等
  • 错误数据
    • 不正确的数据格式,多一个字符等情况,需与相关部门确认数据准确性
    • 解决:采用统计学的方法,偏差分析,回归方程,正态分布等
  • 停用词
    • 没有意义的单个字或词,如“我们”,“的”,“a”
    • 解决:直接过滤
      stopwords =['的', '或', '等', '是', '有', '之', '与']
      text = "我失业5月份了,我想找一个python数据分析师的工作。"  
      seglist = jieba.cut(text)  
      final = []                               #存储去除停用词内容
      for seg in seglist: if seg not in stopwords:  final.append(seg)
      
关键字:文本数据预处理

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: