动态爬虫(ajax)-爬取bilibili热门视频信息
yuyutoo 2025-01-06 16:13 3 浏览 0 评论
前言
使用python爬虫爬取bilibli每日热门视频的数据
使用的第三方软件包括requests、my_fake_useragent
一、页面分析
在进行爬虫之前,我们先要对要爬取的页面进行分析,找到想要使用的接口
bilibili热门排行的地址:https://www.bilibili.com/v/popular/all?spm_id_from=333.851.b_7072696d61727950616765546162.3
如果我们直接进行http请求
import requests
url = 'https://www.bilibili.com/v/popular/all?' \
'spm_id_from=333.851.b_7072696d61727950616765546162.3'
response = requests.get(url)
print(response.text)
你会发现,返回回来的html里面什么信息都没有,更别提去处理了
这是因为,这个页面是使用动态html来进行生成的。你去请求这个url,只会返回一个框架,里面的内容是由ajax&js动态生成的
所以,我们要捕获对方用来动态生成页面的接口,以此来请求信息
————————————————————————————————————————
那么,怎么捕获这个接口呢?
在这个页面中,我们点击F12进入开发者模式,选取network栏,过滤XHR(即ajax)
我们发现,每加载一批新的视频,页面都会调用一个接口
瞅一眼response
可以看到,所有视频的信息都在里面
所以,可以确定使用接口名叫做https://api.bilibili.com/x/web-interface/popular
ps和pn都是参数,ps是page_size代表每一页的视频个数,pn是page_num,代表请求的页数
为了确定接口的可用性,用浏览器请求一次试试
灰常成功,可以开心地写程序了!
二、编写爬虫
这个爬虫的大概流程就是访问对于每一页发送一个请求,解析数据后保存到/popular/page_n文件夹下
1.引入库
import requests
import my_fake_useragent
import time
import json
import os
2.发出请求
2.1生成请求头
def get_headers():
"""
生成响应头
:return: 生成的响应头
"""
# 随机生成user_agent
user_agent = my_fake_useragent.UserAgent()
ua = str(user_agent.random())
headers = {
'user-agent': ua
}
return headers
2.2发出请求并获取响应
def get_response(url, page=1, headers=get_headers()):
"""
请求该url并获得响应
:param url: 要请求的url
:param page: 要请求的页数
:param headers: 请求头部
:return: 对于请求的响应
"""
# 请求的参数
params = {
'ps': '20',
'pn': str(page)
}
try:
# 发出请求
response = requests.get(url=url, params=params, headers=headers)
except Exception as e:
# 异常识别
return None
return response
3.解析响应的内容
刚刚返回的响应特别乱,根本看不懂里面的元素是怎么排列的,所以先去json在线解析解析一下
可以看到,list里面存储了所有的视频对象(Object),我们只需要把它取出来再遍历就行了
def parse_text(text=None):
"""
解析响应的文本
:param text:响应的文本
:return: 由信息字典组成的列表[{info1}, {info2}, {info3}]
"""
# 将json文件解析为字典
data = json.loads(text)
"""
data['data']是一个字典,包含若干数据
data['data']['list']是一个字典组成的list,包含每个视频的信息
"""
ret_list = []
temp_dict = {}
# 提取数据,生成返回列表
for list_dict in data['data']['list']:
# 保存标题
temp_dict['title'] = list_dict['title']
# 保存封面图片的地址
temp_dict['pic'] = list_dict['pic']
# 保存描述
temp_dict['desc'] = list_dict['desc']
# 保存投稿用户id
temp_dict['name'] = list_dict['owner']['name']
# 保存观看量
temp_dict['view'] = list_dict['stat']['view']
# 保存收藏数
temp_dict['favorite'] = list_dict['stat']['favorite']
# 保存投币数
temp_dict['coin'] = list_dict['stat']['coin']
# 保存分享数
temp_dict['share'] = list_dict['stat']['share']
# 保存点赞数
temp_dict['like'] = list_dict['stat']['like']
# 保存BV号
temp_dict['bvid'] = list_dict['bvid']
# 将字典添加到返回列表
ret_list.append(temp_dict.copy())
# 清空字典
temp_dict.clear()
return ret_list
4.保存提取的信息到本地
ef save_infos(infos=None, page=1, main_path=None):
"""
保存信息到指定的文件夹
:param main_path: 主路径
:param infos: 要保存的信息
:param page: 要保存到的文件夹序号
"""
# 让编译器识别一下列表,好把里面的方法识别出来。。。手懒
# infos = [].append(infos)
# 创建子文件夹
dir_path = main_path + '/page%d' % page
if not os.path.exists(dir_path):
os.mkdir(dir_path)
# 遍历读取到的信息
for info in infos:
# 以bv号命名文件
file_path = dir_path + '/' +info['bvid'] + '.text'
# 打开文件
with open(file_path, 'w', encoding='utf-8') as fp:
# 遍历字典
for k, v in info.items():
fp.write('%s: %s' % (str(k), str(v)))
fp.write('\n')
5.看看主函数
def main():
# 需要请求的url
# 'https://api.bilibili.com/x/web-interface/popular?ps=20&pn=1'
url = 'https://api.bilibili.com/x/web-interface/popular'
# 创建主文件夹
main_path = url.split('/')[-1]
if not os.path.exists(main_path):
os.mkdir(main_path)
# 设定起始页码
page_start = int(input('start: '))
page_end = int(input('end: '))
# page_start = 1
# page_end = 1
# 主循环开始
# 主循环开始
for i in range(page_end - page_start + 1):
page_num = i + 1
# 请求页面并获得响应
print('第%d页开始下载……' % page_num)
response = get_response(url=url, page=page_num, headers=get_headers())
# 判断请求是否成功
if not(response is None) and response.status_code == 200:
# 请求成功
# 获取并解析响应的内容
text = response.text
infos = parse_text(text)
save_infos(infos=infos, page=page_num, main_path=main_path)
print('第%d页下载完成' % page_num)
else:
# 请求失败
print('!!第%d页请求失败!!' % page_num)
continue
# 文明爬虫!!!
time.sleep(3)
if __name__ == '__main__':
print('开始')
start_time = time.time()
main()
end_time = time.time()
print('完成<%f>' % (end_time - start_time))
三、运行结果
感谢阅读!!!
多说一句,很多人学Python过程中会遇到各种烦恼问题,没有人解答容易放弃。小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“01”即可领取。
相关推荐
- 史上最全的浏览器兼容性问题和解决方案
-
微信ID:WEB_wysj(点击关注)◎◎◎◎◎◎◎◎◎一┳═┻︻▄(页底留言开放,欢迎来吐槽)●●●...
-
- 平面设计基础知识_平面设计基础知识实验收获与总结
-
CSS构造颜色,背景与图像1.使用span更好的控制文本中局部区域的文本:文本;2.使用display属性提供区块转变:display:inline(是内联的...
-
2025-02-21 16:01 yuyutoo
- 写作排版简单三步就行-工具篇_作文排版模板
-
和我们工作中日常word排版内部交流不同,这篇教程介绍的写作排版主要是用于“微信公众号、头条号”网络展示。写作展现的是我的思考,排版是让写作在网格上更好地展现。在写作上花费时间是有累积复利优势的,在排...
- 写一个2048的游戏_2048小游戏功能实现
-
1.创建HTML文件1.打开一个文本编辑器,例如Notepad++、SublimeText、VisualStudioCode等。2.将以下HTML代码复制并粘贴到文本编辑器中:html...
- 今天你穿“短袖”了吗?青岛最高23℃!接下来几天气温更刺激……
-
最近的天气暖和得让很多小伙伴们喊“热”!!! 昨天的气温到底升得有多高呢?你家有没有榜上有名?...
- CSS不规则卡片,纯CSS制作优惠券样式,CSS实现锯齿样式
-
之前也有写过CSS优惠券样式《CSS3径向渐变实现优惠券波浪造型》,这次再来温习一遍,并且将更为详细的讲解,从布局到具体样式说明,最后定义CSS变量,自定义主题颜色。布局...
- 你的自我界限够强大吗?_你的自我界限够强大吗英文
-
我的结果:A、该设立新的界限...
- 行内元素与块级元素,以及区别_行内元素和块级元素有什么区别?
-
行内元素与块级元素首先,CSS规范规定,每个元素都有display属性,确定该元素的类型,每个元素都有默认的display值,分别为块级(block)、行内(inline)。块级元素:(以下列举比较常...
-
- 让“成都速度”跑得潇潇洒洒,地上地下共享轨交繁华
-
去年的两会期间,习近平总书记在参加人大会议四川代表团审议时,对治蜀兴川提出了明确要求,指明了前行方向,并带来了“祝四川人民的生活越来越安逸”的美好祝福。又是一年...
-
2025-02-21 16:00 yuyutoo
- 今年国家综合性消防救援队伍计划招录消防员15000名
-
记者24日从应急管理部获悉,国家综合性消防救援队伍2023年消防员招录工作已正式启动。今年共计划招录消防员15000名,其中高校应届毕业生5000名、退役士兵5000名、社会青年5000名。本次招录的...
- 一起盘点最新 Chrome v133 的5大主流特性 ?
-
1.CSS的高级attr()方法CSSattr()函数是CSSLevel5中用于检索DOM元素的属性值并将其用于CSS属性值,类似于var()函数替换自定义属性值的方式。...
- 竞走团体世锦赛5月太仓举行 世界冠军杨家玉担任形象大使
-
style="text-align:center;"data-mce-style="text-align:...
- 学物理能做什么?_学物理能做什么 卢昌海
-
作者:曹则贤中国科学院物理研究所原标题:《物理学:ASourceofPowerforMan》在2006年中央电视台《对话》栏目的某期节目中,主持人问过我一个的问题:“学物理的人,如果日后不...
-
- 你不知道的关于这只眯眼兔的6个小秘密
-
在你们忙着给熊本君做表情包的时候,要知道,最先在网络上引起轰动的可是这只脸上只有两条缝的兔子——兔斯基。今年,它更是迎来了自己的10岁生日。①关于德艺双馨“老艺...
-
2025-02-21 16:00 yuyutoo
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- mybatis plus (70)
- scheduledtask (71)
- css滚动条 (60)
- java学生成绩管理系统 (59)
- 结构体数组 (69)
- databasemetadata (64)
- javastatic (68)
- jsp实用教程 (53)
- fontawesome (57)
- widget开发 (57)
- vb net教程 (62)
- hibernate 教程 (63)
- case语句 (57)
- svn连接 (74)
- directoryindex (69)
- session timeout (58)
- textbox换行 (67)
- extension_dir (64)
- linearlayout (58)
- vba高级教程 (75)
- iframe用法 (58)
- sqlparameter (59)
- trim函数 (59)
- flex布局 (63)
- contextloaderlistener (56)