当前位置: 首页> 教育> 大学 > 【工程实践】数据清洗

【工程实践】数据清洗

时间:2025/7/18 12:57:40来源:https://blog.csdn.net/weixin_44750512/article/details/131781209 浏览次数:0次

前言

        工作中遇到的数据清洗过程,仅作记录。

1.清洗代码

1-1.清除表情符号、html网址、email ids、urls

def clean_data(data):punct_tag = re.compile(r'[^\w\s]')data = punct_tag.sub(r'', data)html_tag = re.compile(r'<.*?>')data = html_tag.sub(r'', data)url_clean = re.compile(r"https://\S+|www\.\S+")data = url_clean.sub(r'', data)emoji_clean = re.compile("["u"\U0001F600-\U0001F64F"  # emoticonsu"\U0001F300-\U0001F5FF"  # symbols & pictographsu"\U0001F680-\U0001F6FF"  # transport & map symbolsu"\U0001F1E0-\U0001F1FF"  # flags (iOS)u"\U00002702-\U000027B0"u"\U000024C2-\U0001F251""]+", flags=re.UNICODE)data = emoji_clean.sub(r'', data)url_clean = re.compile(r"https://\S+|www\.\S+")data = url_clean.sub(r'', data)return data

1-2.清除所有格

def strip_possessives(text):text = text.replace("'s", '')text = text.replace('’s', '')text = text.replace("\'s", '')text = text.replace("\’s", '')return text

1-3.将数字替换成

def clean_numbers(x):x = re.sub("[0-9]{5,}", '#####', x)x = re.sub("[0-9]{4}", '####', x)x = re.sub("[0-9]{3}", '###', x)x = re.sub("[0-9]{2}", '##', x)return x

后记

        有个很著名的论断:一个数据科学家80%的时间花在了数据清洗,20%的时间花在算法模型上面。数据清洗很像一个筛沙子的过程,通过整合筛选,筛出金子般的数据洞察/模型预测。不然的话,建模分析就是garbage in, garbage out (垃圾进,垃圾出)

        经过实践,  即使通过简单的数据清洗,也能提升1-2%的模型指标。 

关键字:【工程实践】数据清洗

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: