今天我们分享一个爬虫+数据分析+数据可视化的开发案例:对腾讯热播剧——《突围》的评论进行数据分析及可视化。
项目共采集了1W条评论,并且尝试对评论进行了情绪文本分析处理,很适合数据分析新人练手。获取完整代码,文末后台回复关键字:突围,文章对你有帮助,收藏、关注。
注:文末提供技术交流群
项目主要内容:
-
如何查找视频id
-
制作词云图
-
制作最近评论数条形图与折线图
-
制作每小时评论条形图与折线图
-
制作最近评论数饼图
-
制作每小时评论饼图
-
制作观看时间区间评论统计饼图
-
制作突围主演提及占比饼图
-
制作评论内容情感分析图
-
评论的时间戳转换为正常时间
-
评论内容读入CSV
-
统计一天各个时间段内的评论数
-
统计最近评论数
-
爬取评论内容
-
爬取评论时间
爬虫方面:由于腾讯的评论数据是封装在json里面,所以只需要找到json文件,对需要的数据进行提取保存即可。
视频网址:
https://v.qq.com/x/cover/p4oc75vffwfh1lp/p0040j0kmjg.html
评论json数据网址:
https://video.coral.qq.com/varticle/7483632124/comment/v2
注:只要替换视频数字id的值,即可爬取其他视频的评论
利用 Chrome 开发者工具,在“网络”栏可以查到视频请求地址,其中的 targetid 就是我们需要的视频id。
1.爬取评论内容代码:spiders.py
2.爬取评论时间代码:sp.py
1.评论的时间戳转换为正常时间 time.py
2.评论内容读入csv CD.py
3.统计一天各个时间段内的评论数 py.py
4.统计最近评论数 py1.py
数据分析方面:涉及到了词云图,条形,折线,饼图,后三者是对评论时间与主演占比的分析,然而腾讯的评论时间是以时间戳的形式显示,所以要进行转换,再去统计出现次数,最后,新加了对评论内容的情感分析。
1.制作词云图
wc.py
词云图:result.png (注:这里要把英文字母过滤掉)
2.制作最近评论数条形图 DrawBar.py
效果图:DrawBar.html
3.制作每小时评论条形图 DrawBar2.py
效果图:DrawBar2.html
4.制作近日评论数饼图 pie_pyecharts.py
效果图
5.制作每小时评论饼图 pie_pyecharts2.py
效果图
6.制作观看时间区间评论统计饼图 pie_pyecharts3.py
效果图
7.制作突围主演提及占比饼图 pie_pyecharts4.py
效果图
8.评论内容情感分析 SnowNLP.py
效果图(情感各分数段出现频率)
SnowNLP情感分析是基于情感词典实现的,其简单的将文本分为两类,积极和消极,返回值为情绪的概率,也就是情感评分在[0,1]之间,越接近1,情感表现越积极,越接近0,情感表现越消极。
以上就是整个开发案例的全过程,涉及了爬虫、数据处理、可视化、情感分析等知识点,感兴趣的小伙伴可以自己动手试一试。
如果文章对你有帮助,欢迎转发/点赞/收藏~
欢迎转载、收藏、有所收获点赞支持一下!
目前开通了技术交流群,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友
- 方式①、发送如下图片至微信,长按识别,后台回复:加群;
- 方式②、添加微信号:dkl88191,备注:来自CSDN
- 方式③、微信搜索公众号:Python学习与数据挖掘,后台回复:加群