Python每日一库之requests python爬虫之requests库的下载

yuyutoo 2024-12-23 14:29 6 浏览 0 评论

Python urllib库使用起来很麻烦，尤其是在进行网络爬取时。比如在处理网页验证和cookies的时候，需要编写Opener和Handler来处理。为了更方便地实现这些操作，有一个更强大的requests库。

安装requests

requests是第三方库，不是Python内置库，需要手动安装。

通过 pip 安装

可以通过pip来安装requests，在命令行界面运行以下命令，完成requests库的安装:

pip install requests

requests的基本用法

下面的代码示例使用requests中的 get ()方法发送一个 get 请求。

import requests 
# 发送 get 请求
r = requests.get('https://www.baidu.com') 
# 检查响应类型
print(type(r)) 
# 检查状态码
print(r.status_code) 
# 检查响应内容类型
print(type(r.text)) 
# 检查响应内容
print(r.text) 
# 检查 cookie 
print(r.cookies)

这里get()调用该方法实现与urllib库中的urlopen()一致，结果返回一个响应对象，然后分别输出响应对象类型、状态码、响应体内容类型、响应体内容、Cookies。

从运行结果可以知道，响应对象requests.models.Response的类型，响应体内容str的类型，Cookies的类型是RequestCookieJar。如果要发送其他类型的请求，可以直接调用其对应的方法：

r = requests.post('https://www.baidu.com') 
r = requests.put('https://www.baidu.com') 
r = requests.delete('https://www.baidu.com') 
r = requests.head('https://www.baidu.com') 
r = requests.options('https://www.baidu.com')

获取请求

构建一个GET请求，请求https://www.baidu.com（网站会判断如果客户端发起GET请求，会返回相应的信息）

import requests

r = requests.get('http://httpbin.org/get') 
print(r.text)

输出将如下所示：

如果要添加请求参数，例如添加两个请求参数，其中name值为jack，age值为20。可以写成：

r = requests.get(' http://httpbin.org/get?name=jack&age=20' )

但是推荐最佳的写法如下：

import requests
data = { 
'name':'jack', 
  'age':20, 
}
r = requests.get(' http://httpbin.org/get',params=data ) 
print(r.text)

输出将如下所示：

网页返回内容的类型为 type str。如果符合 JSON 格式，可以使用json()方法将其转为字典类型，方便解析。

import requests
r = requests.get('http://httpbin.org/get' ) 
# str type 
print(type(r.text))# 以字典形式返回
print(r.json()) 
print(type(r.json()))

输出：

POST 请求

发送 POST 请求

import requests
r = requests.post(' http://httpbin.org/post' ) 
print(r.text)

输出：

发送带参数的 POST

import requests
data = { 
  "name":"jack", 
  "age":"20" 
} 
r = requests.post(' http://httpbin.org/post',data=data ) 
print(r.text)

输出

设置请求头

可以headers通过以下方式设置你的请求：

import requests
headers = { 
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0', 
  'Test':'Gopher' 
} 
r = requests. get(' http://httpbin.org/get',headers=headers)
print(r.text)

输出：

请求响应

发送请求后，返回一个响应，它有很多属性，状态码、响应头、cookies、响应内容等，可以通过它的属性获取，如下：

import requests 
r = requests.get('https://www.baidu.com/') 
# 响应内容类型
print(type(r.text),r.text) 
# 响应内容
print(type(r.content), r.content) 
# 状态码
print(type(r.status_code),r.status_code) 
# 响应头
print(type(r.headers),r.headers) 
# Cookies 
print(type(r.cookies),r.cookies ) 
# URL 
print(type(r.url),r.url) 
# 响应历史记录
print(type(r.history),r.history)

状态码常用于判断请求是否成功。除了 HTTP 提供的状态码之外，requests 库还提供了一个内置的状态码查询对象，称为 requests.codes。事实上，两者是等价的。一个例子如下：

import requests
r = requests.get('https://www.baidu.com/')
if r.status_code == requests.codes.ok: 
  print('请求成功') 
else: 
  print('请求失败')

抓取二进制数据

图片、音频、视频文件本质上是由二进制代码组成的，所以如果要爬取它们，就必须获取它们的二进制代码。以抓取百度的站点图标（标签页上的小图标）为例：

import requests
r = requests.get('https://www.baidu.com/favicon.ico') 
with open('favicon.ico','wb') as f: 
    f.write(r.content)

我们这里使用的open()方法，它的第一个参数是要保存的文件名（带路径），第二个参数表示要以二进制形式写入数据。运行后，可以favicon.ico在当前目录下找到命名的保存图标。同样，也可以通过这种方式获得音频和视频。

上传文件

requests可以模拟提交一些数据。如果一个网站需要上传文件，我们也可以做到。

import requests 

files = {'file':open('favicon.ico','rb')}
r = requests.post('http://httpbin.org/post',files=files)
print(r.text)

处理 Cookie

用 urllib 处理 cookie 比较复杂，而用requests处理 cookie 则非常简单。

获取 cookie

import requests
r = requests.get(' https://www.zhihu.com' ) 
print(r.cookies) 
for key,value in r.cookies.items(): 
	cookie = key+"="+value
    print(cookie)

可以Cookies通过调用response对象的cookies属性来获取，该对象是一个类型的对象RequestCookiesJar，然后使用该items()方法将其转换为一个元组列表，遍历并输出每个的名称和值Cookies。

使用 cookie 来维护登录状态。

import requests
headers = { 
  'Cookie':'KLBRSID=xxx|xx|xx',
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0', 
  'Host':'www.zhihu.com' 
} 
r = requests.get('https://www.zhihu.com',headers=headers) 
print(r.text)

运行后，结果中包含登录后的内容，说明获取登录状态成功。

也可以通过cookies参数来设置，不过这个需要RequestCookieJar对象的构造，后面的cookies需要划分，比较麻烦，但是效果是一样的。

import requests
cookies ='KLBRSID=xx|xx|xx' 
jar = requests.cookies.RequestsCookieJar()
headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0',
  'Host':'www.zhihu.com'
}
for cookie in cookies.split(';'):
  key,value = cookie.split('=',1)
  jar.set(key,value)
r = requests.get('https://www.zhihu.com',headers=headers)
print(r.text)

会话保持

可以通过调用 get ()或 post ()和其他方法来模拟 Web 页面请求，但是这实际上等效于不同的会话，这意味着你使用两个浏览器打开不同的页面。如果第一次请求使用 post ()方法登录网站，第二次成功登录后想获取自己的个人信息，再次使用 get ()方法获取所请求的个人信息，实际上相当于打开两个浏览器，所以不能成功获取个人信息。为此，需要进行会话维护。您可以为两个请求设置相同的 Cookie，但是这非常麻烦，而且通过 Session保持会话非常容易。

improt requests
s = requests.Session() 
s.get(' http://httpbin.org/cookies/set/number/123456789' ) 
r = s.get(' http://httpbin.org/cookies' )
print(r.text)

先通过requests打开一个session，然后get通过session发送一个request，用来设置cookies中的参数号，参数值为123456789；然后用这个发起get请求获取Cookies，然后打印获取的内容。

SSL证书验证

requests还提供了证书验证功能。发送 HTTP 请求时，它会检查 SSL 证书。我们可以使用 verify 参数来控制是否检查 SSL 证书。

请求HTTPS网站时，如果网站的证书不被CA机构信任，程序会报错，提示SSL证书验证错误。为此，只需将验证参数设置为 False：

import requests
response = requests.get('https://www.xxx.com',verify=False) 
print(response.status_code)

也可以指定一个本地证书用作客户端证书，它可以是单个文件（包含密钥和证书）或包含两个文件路径的元组。

import requests
response = requests.get('https://www.xxxx.com',cert('/path/server.crt','/path/key')) 
print(response.status_code)

代理设置

对于一些网站，在测试过程中多次请求后可以正常获取内容。但是一旦开始大规模频繁爬取，网站可能会弹出验证码，或者跳转到登录验证页面，甚至直接屏蔽客户端IP，导致一段时间内无法访问。为了防止这种情况，我们需要使用代理来解决这个问题，这需要代理参数。

import requests
proxies = {
    'http': 'http://153.35.2.201:80',
    'https': 'https://153.35.2.201:80' 
}
try:
    response = requests.get('http://httpbin.org/get', proxies=proxies)
    print(response.text)
except requests.exceptions.ConnectionError as e:
    print('Error', e.args)

如果代理需要使用 HTTP Basic Auth，可以使用类似 http://user:password@host:port 的语法来设置代理。

除了基本的HTTP代理外，requests还支持SOCKS协议的代理。首先你需要安装 socks 库：

pip3 install 'requests[socks]'

import requests
proxies = {
  'http':'socks5://user:password@host:port',
  'https':'socks5://user:password@host:port'
}
requests.get('https://www.xxxx.com',proxies=proxies)

超时设置

当本地网络条件不好或者服务器网络响应太慢甚至没有响应时，我们可能会等待很长时间才能收到响应，甚至最后没有收到响应就报错。

为了处理这种情况，应该设置一个超时时间，即从计算机向服务器发送请求到返回响应的时间。如果请求超过了这个超时时间并且没有收到响应，就会抛出错误。这需要使用 timeout 参数来实现，以秒为单位。

import requests
r = requests.get('https://www.baidu.com',timeout=1) 
print(r.status_code)

或者您可以分别指定超时时间。实际上，请求分为两个阶段：连接和读取。如果给 timeout 参数指定一个整数值，则 timeout 是两个阶段的总和；如果你想单独指定它们，你可以传入一个元组，连接超时和读取超时：

import requests
#5 秒超时连接和 30 秒读取
r = requests.get('https://www.xxxx.com',timeout=(5,30)) 
print(r.status_code)

网站验证

访问网站时，可能会遇到如下认证页面，此时可以使用requests自带的认证功能，通过HTTPBasicAuth类实现。

import requests
from requests.auth import HTTPBasicAuth
r = requests.get('http://localhost:8080/manager/html',auth=HTTPBasicAuth('admin','123456'))
# or
r = requests.get('http://localhost:8080/manager/html',auth=('admin','123456'))
print(r.status_code)

requests也提供其他认证方式，如OAuth认证，但需要安装oauth包。

使用以下命令进行安装：

pip install requests_oauthlib

然后构造一个认证：

import requests
from requests_oauthlib import OAuth1
url = 'https://api.twitter.com/1.1/account/verify_credentials.json'
auth = OAuth1("YOUR_APP_KEY","YOUR_APP_SECRET","USER_OAUTH_TOKEN","USER_OAUTH_TOKEN_SECRET")
requests.get(url,auth=auth)

Prepared封装请求头

有时如果需要设置请求头，需要用一个Request对象来表示。在 requests 库中，有一个类似的类，叫做 Prepared Request。

from requests import Request,Session
url = 'http://httpbin.org/post'
data = {
 'name':'jack'
}
headers = {
 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0'
}
s = Session()
req = Request('POST',url,data=data, headers=headers)
prepped = s.prepare_request(req)
r = s.send(prepped)
print(r.text)

Request这里引入，然后Request用url、data和headers参数构造一个对象。这时候就需要调用prepare_request()Session的方法将其转化为Prepared Request对象，然后调用该send()方法发送。

这样做的好处是可以使用Request把请求当成一个独立的对象，这样对于队列调度非常方便，后面会用来构造一个Request队列。

response cookies

上一篇：Javaweb知识 day16 Cookie&Session
下一篇：不背锅运维:Grafana的自动登入(Go和Python分别实现)

Python每日一库之requests python爬虫之requests库的下载

安装requests

相关链接

通过 pip 安装

requests的基本用法

获取请求

POST 请求

发送 POST 请求

发送带参数的 POST

设置请求头

请求响应

抓取二进制数据

上传文件

处理 Cookie

会话保持

SSL证书验证

代理设置

超时设置

网站验证

Prepared封装请求头

相关推荐

取消回复欢迎你发表评论:

前端面试:iframe 的优缺点? iframe有那些缺点

带斜线的表头制作好了，如何填充内容?这几种方法你更喜欢哪个?

漫学笔记之PHP.ini常用的配置信息

其实模版网站在开发工作中很重要，推荐几个参考站给大家

推荐7个模板代码和其他游戏源码下载的网址

[干货] JAVA - JVM - 2 内存两分 [干货]+java+-+jvm+-+2+内存两分吗

正在学习使用python搭建自动化测试框架?这个系统包你可能会用到

织梦(Dedecms)建站教程织梦建站详细步骤

【开源分享】2024PHP在线客服系统源码(搭建教程+终身使用)

2024PHP在线客服系统源码+完全开源带详细搭建教程

Python每日一库之requests python爬虫之requests库的下载

安装requests

相关链接

通过 pip 安装

requests的基本用法

获取请求

POST 请求

发送 POST 请求

发送带参数的 POST

设置请求头

请求响应

抓取二进制数据

上传文件

处理 Cookie

会话保持

SSL证书验证

代理设置

超时设置

网站验证

Prepared封装请求头

相关推荐

取消回复欢迎 你 发表评论:

前端面试:iframe 的优缺点? iframe有那些缺点

带斜线的表头制作好了，如何填充内容?这几种方法你更喜欢哪个?

漫学笔记之PHP.ini常用的配置信息

其实模版网站在开发工作中很重要，推荐几个参考站给大家

推荐7个模板代码和其他游戏源码下载的网址

[干货] JAVA - JVM - 2 内存两分 [干货]+java+-+jvm+-+2+内存两分吗

正在学习使用python搭建自动化测试框架?这个系统包你可能会用到

织梦(Dedecms)建站教程 织梦建站详细步骤

【开源分享】2024PHP在线客服系统源码(搭建教程+终身使用)

2024PHP在线客服系统源码+完全开源 带详细搭建教程

取消回复欢迎你发表评论:

织梦(Dedecms)建站教程织梦建站详细步骤

2024PHP在线客服系统源码+完全开源带详细搭建教程