Python 爬取 20 万条评论,告诉你周杰伦新歌为啥弄崩 QQ 音乐?
yuyutoo 2024-10-13 00:36 1 浏览 0 评论
作者 | 哈哈浩
责编 | 伍杏玲
9 月 16 日晚间,周董在朋友圈发布了最新单曲《说好不哭》。
发布后,真的让一波人哭了,一群想抢鲜听的小伙伴直接泪奔。
因为 QQ 音乐直接被搞崩了!
没想到干翻 QQ 音乐的不是网易云音乐,也不是虾米音乐,而是周董!
周董成成功地凭一己之力干翻了 QQ 音乐!
那么听过周董新歌后的小伙伴都是怎么评价的呢?
这里,我们获取了 QQ 音乐的近 20W 条评论数据进行分析,看看其中有哪些有趣的东西?
数据获取
1、请求分析
在 QQ 网页版直接搜索『说好不哭』,很容易就能找到单曲页面:
说好不哭
拉到页面最下方,可以看到评论的分页查看按钮:
分页查看
按下 F12 点击第二页,在请求流中就可以看到对应的请求:
评论请求
其中可以看到两个重要参数:pagenum 和 pagesize。
将请求 copy 到 Postman 中进行测试:
Postman测试
发现可以直接获取到数据,连 Header 都不需要添加。这里尝试对请求参数进行了精简,最终只需要如下几个参数即可:
参数精简
从 Postman 中可以直接获取到对应的代码:
import requests
url = "https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg"
querystring = {"biztype":"1","topid":"237773700","cmd":"8","pagenum":"1","pagesize":"25"}
response = requests.request("GET", url, params=querystring)
print(response.text)
这里是单页评论的获取,所有评论的获取只需递增 pagenum 即可。
2、数据解析
返回数据中有很多暂时不需要的字段,这里我们只取其中的用户名、评论时间、评论内容、点赞数。
对应如下字段:
{
"nick": "丨那壹刻永遠消失\"\"",
"praisenum": 1,
"rootcommentcontent": "越听越好听怎么回事!",
"time": 1568729836,
}
由于数据量较大 这里我们暂时将数据存放在 Excel 中,一来无须依赖外部数据库,二来可以使用 Excel 对数据进行二次处理。
数据存储代码如下:
def file_do(list_info, file_name):
# 获取文件大小
if not os.path.exists(file_name):
wb = openpyxl.Workbook
page = wb.active
page.title = 'jay'
page.append(['昵称','时间','点赞数','评论'])
else:
wb = openpyxl.load_workbook(file_name)
page = wb.active
for info in list_info:
try:
page.append(info)
except Exception:
print(info)
wb.save(filename=file_name)
数据可视化
1、各时段的评论数
首先我们对评论按小时区间进行汇总,由于时间粒度比较小,这里对时间粒度进行了一些处理:
评价人数走势图
周董的新曲是在 9.16 号 23 点准时发布的。可以看出在发布后的一个小时内(23:00-24:00)评论数量达到了高峰,占了总评论数的一半以上。
另外看了一眼 9.16 23 点之前的评论也很有意思:
一种搬好小板凳嗑着瓜子坐等的既视感
2、大家都在说什么
词云生成的方法有很多,可以用代码生成,也可以用一些在线工具。这里我就使用了在线词云工具:WordArt,生成效果如下:
词云
周杰伦、杰伦字眼很明显,还有大量跑来『打卡』的:『好听』、『来了』、『哭了』、『爱了』,其中少不了的还有『青春』,另外『阿信』的出现估计给了很多人惊喜。
3、大家都点赞了哪些评论
我们以点赞数对评论进行了排序,排名靠前的评论是如下一些:
评论排名
另外,QQ 音乐官方也会放出精彩评论:
热心网友昀恺丶
凉城
蜗牛..
对比下可以看出和我们获取到的数据是比较一致的,只不过官方并不是按点赞个数进行排名的,看得出来这些排名靠前的大都是在回忆青春。
这些评论之所以能够得到大家的共鸣,也许他们的青春里都有一个周杰伦吧。
留言互动:你的青春里有周杰伦吗?
源码:https://github.com/hoxis/Python/tree/master/python-web-scraping/qqmusic
声明:本文系作者投稿,版权归作者所有。
【END】
相关推荐
- 《亲爱的》特效真厉害,一块绿布贯彻全集,不得不佩服李现的演技
-
说起《亲爱的热爱的》这部电视剧,相信很多人并不陌生,这部电视剧让男演员李现因此爆红,其实李现是一个非常有潜力的男演员,他的表现也非常的精彩。但是大家都知道,在每一部电视剧中都有特效的存在,这部电视剧也...
- 充分运用AI特效,京剧电影《大唐贵妃》正式开机
-
“当唱到‘在天愿为比翼鸟,在地愿为连理枝’的时候,会从演员身后飞起一只巨大无比的比翼鸟,鸟在空中盘旋,刮起的风甚至会吹过角色的脸……”11月10日,电影《大唐贵妃》在上海车墩影视基地正式开机,这是第一...
- 工业光魔:没有PS的年代,特效怎么做?
-
大家好,我是戴着眼镜拿着话筒的阿拉斯加,片片。昨天,我给大家简单介绍了传奇特效公司——工业光魔的起源。...
- 价值13亿的“爽片”上映,每一帧都是钱砸出来的特效,却无缘国内
-
在七月二号的时候;美国在网络上面上映了一部大制作的“爽片”《明日之战》。...
- 影视特效是怎么制作出来的?来,一起体验吧!
-
电影是人们生活中不可缺少的一部分,是视觉与听觉相结合的现代艺术。悲剧、喜剧、亲情、友情、爱情都是它所能展现的内容。影视艺术有哪些独有的特征?什么是蒙太奇?全息影片又是什么意思?最近,少儿频道的一档节目...
- ps五分钟学会自己制作“特效”
-
嗨,欢迎观看本期的摄影后期教学。那就是教大家一个特别炫酷,特别实用的ps“特效”光!有同学会问,“啊,特效光是不是特别难,我一点ps都不会!”咳咳不要着急,karry的教学都是针对ps零基础的同学的,...
- 抖音这个特效太扎心,无数网友看着看着就哭了……
-
2078年的你,会是什么样子?最近,抖音上一款特效火了。它可以让你看到自己从现在到2078年的容貌变化,你可以一点点看着皱纹爬上眼角,白发布满双鬓。看着看着,很多网友就哭了。有人说,一辈子很长却也很短...
- 《爱情公寓》的特效有多好?这集花了300万,网友看不出来特效
-
对于有些电视剧来说,特效那可是相当重要的一个部分了。尤其是对那些科幻片和一些玄幻类的电视剧就更加了。一部剧或者是影片特效的好坏,直接就影响了这个作品的质量。首先就让我们来看一下电视剧孤芳不自赏吧!里面...
- 窗花剪纸、鸭头滤镜、潜艇王者…… 揭秘抖音特效那些事儿
-
更多往期「Byte漫来了」系列漫画,可点击阅读:...
- 原来影视剧中的“光头”全是这样弄的 观众被骗了许多年
-
不管是电影还是电视剧,都会有光头因为是剧情的需要,那么她们的光头会是怎么弄的呢?一直都以为那些演员都是要真的剃光头,看到这些照片后,才知道深深的被骗了许多年。在影视中,常常看到演员有光头的戏,她在外出...
- 这些特效给几分?春晚舞台显示技术盘点
-
[中关村在线投影机频道原创]从1983年开始,春晚成为国人大年三十晚上最期待的一场精神盛宴。直播式节目播出方式,各类表演大师云集舞台,相声小品歌舞欢聚一堂,这是很多家庭一年中最欢乐的时刻,而春晚,则是...
- 11 款六元秒杀特效对比,哪个赢了不知道,貂蝉一眼输了
-
已经上线了11款六元秒杀皮肤,其中部分是升级后的“伴生皮”,也就是英雄的首款皮肤,首周六元之后恢复原价488点券。无论是何种形式的六元皮肤,不得不说他们的质量都非常好,这11款皮肤的特效对...
- 《半条命2 RTX》上架Steam 光追特效+4K效果
-
《半条命2RTX》现已在Steam平台正式上架,这款屡获殊荣的游戏以其沉浸式的故事、惊险的战斗和令人费解的物理特性吸引了全球数百万玩家,游戏现已经新增全面光追、物理纹理以及增强的多边形效果进行了彻底...
- 微信又有新玩法?多种好看特效可选择,赶快安排上
-
今日分享:手机特效适用系统:安卓今天小雷又发现了一个好玩的东西,就是手机加上特效也太好看了吧!早上上班的时候发现同事打开微信后,微信页面居然下起了樱花雨。看了同事的微信页面小雷我真的觉得太好玩太好看了...
- 判若两人!揭秘好莱坞的特效化妆过程
-
好莱坞的特效化妆牛到什么程度呢?可以把美人化妆成丑八怪,把黑人化妆成白人,把年轻人化妆成老人,把女人化妆成男人,把男人化妆成女人,把普通人化妆成怪物、外星人甚至异鬼……来见识一下这些神奇化妆术的“变...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- mybatis plus (70)
- scheduledtask (71)
- css滚动条 (60)
- java学生成绩管理系统 (59)
- 结构体数组 (69)
- databasemetadata (64)
- javastatic (68)
- jsp实用教程 (53)
- fontawesome (57)
- widget开发 (57)
- vb net教程 (62)
- hibernate 教程 (63)
- case语句 (57)
- svn连接 (74)
- directoryindex (69)
- session timeout (58)
- textbox换行 (67)
- extension_dir (64)
- linearlayout (58)
- vba高级教程 (75)
- iframe用法 (58)
- sqlparameter (59)
- trim函数 (59)
- flex布局 (63)
- contextloaderlistener (56)