日期:
来源:一枚计算机小硕的笔记收集编辑:数据
在上篇文章中,小编使用了Python爬取了网易云音乐中许巍的故乡的评论数据,在本篇文章中,小编将介绍怎么清理这些数据。
一:数据存在的问题。
问题1:有些评论中有换行符,导致一条评论可能占用很多行,如下图所示:
问题2:数据中有重复的数据,详见下图:
这些数据很明显都重复了,而且还不止一次,通过在记事本中查找,发现重复了336次。具体什么原因,小编还在研究。。。。
二:数据清洗整理
在这里,小编使用了Java对数据进行了清洗处理,相关代码如下:
整理数据,使其规范化的函数。
除去重复数据的函数
Main函数
最后结果如下图所示:
处理前
处理后
想要源码可以关注并私信小编,小编会在第一时间给回复。在以后的文章里,小编将介绍怎么将处理后数据导入MySQL来做一些简单的查询分析,届时可以查询自己暗恋的女(男)神的评论了(如果有的话)。
注:该教程只用作学习交流之用,请勿随意传播和做恶。。。。。