百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

全网最全的python网络爬虫常用技术

yuyutoo 2024-12-23 14:28 3 浏览 0 评论

前言

urllib模块

urllib库是python中自带的模块,也是一个最基本的网络请求库,该模块提供了一个urlopen()方法,通过该方法指定URL发送网络请求来获取数据。

正文

urllib 是一个收集了多个涉及 URL 的模块的包

urllib.request 打开和读取 URL

三行代码即可爬取百度首页源代码:

import urllib.request
# 打开指定需要爬取的网页
response=urllib.request.urlopen('http://www.baidu.com')
# 或者是 
# from urllib import request
# response = request.urlopen('http://www.baidu.com')

# 打印网页源代码
print(response.read().decode())

加入decode()是为了避免出现下图中十六进制内容

加入decode()进行解码后

下面三种本篇将不做详述

  • urllib.error 包含 urllib.request 抛出的异常
  • urllib.parse 用于解析 URL
  • urllib.robotparser 用于解析 robots.txt 文件

requests模块

requests模块是python中实现HTTP请求的一种方式,是第三方模块,该模块在实现HTTP请求时要比urllib模块简化很多,操作更加人性化。
GET请求为例:

import requests
response = requests.get('http://www.baidu.com/')
print('状态码:', response.status_code)
print('请求地址:', response.url)
print('头部信息:', response.headers)
print('cookie信息:', response.cookies)
# print('文本源码:', response.text)
# print('字节流源码:', response.content)

输出结果如下:

状态码: 200
请求地址: http://www.baidu.com/
头部信息: {'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sun, 10 May 2020 02:43:33 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:28:23 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}
cookie信息: <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>

这里讲解一下response.text和 response.content的区别

  • response.content是直接从网络上面抓取的数据,没有经过任何解码,所以是一个 bytes类型
  • response.text是将response.content进行解码的字符串,解码需要指定一个编码方式, requests会根据自己的猜测来判断编码的方式,所以有时候可能会猜测错误,就会导致解码产生乱码,这时候就应该使用 response.content.decode(‘utf-8’)进行手动解码

POST请求为例

import requests
data={'word':'hello'}
response = requests.post('http://www.baidu.com',data=data)
print(response.content)

请求headers处理

当爬取页面由于该网页为防止恶意采集信息而使用反爬虫设置,从而拒绝用户访问,我们可以通过模拟浏览器的头部信息来进行访问,这样就能解决反爬虫设置的问题。

通过浏览器进入指定网页,右击鼠标,选中“检查”,选择“Network”,刷新页面后选择第一条信息,右侧消息头面板将显示下图中请求头部信息

例如:

import requests
url = 'https://www.bilibili.com/'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'}
response = requests.get(url, headers=headers)
print(response.content.decode())

网络超时

在访问一个页面,如果该页面长时间未响应,系统就会判断该网页超时,所以无法打开网页。
例如:

import requests

url = 'http://www.baidu.com'
# 循环发送请求50次
for a in range(0, 50):
    try:
   		# timeout数值可根据用户当前网速,自行设置
        response = requests.get(url, timeout=0.03) # 设置超时为0.03
        print(response.status_code)
    except Exception as e:
        print('异常'+str(e)) # 打印异常信息

部分输出结果如下:

代理服务

设置代理IP可以解决不久前可以爬取的网页现在无法爬取了,然后报错——由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败的问题。

例如:

import requests

# 设置代理IP
proxy = {'http': '117.45.139.139:9006',
         'https': '121.36.210.88:8080'
         }
# 发送请求
url = 'https://www.baidu.com'
response = requests.get(url, proxies=proxy)
# 也就是说如果想取文本数据可以通过response.text
# 如果想取图片,文件,则可以通过 response.content
# 以字节流的形式打印网页源代码,bytes类型
print(response.content.decode())
# 以文本的形式打印网页源代码,为str类型
print(response.text) # 默认”iso-8859-1”编码,服务器不指定的话是根据网页的响应来猜测编码。

Beautiful Soup模块

Beautiful Soup模块是一个用于HTML和XML文件中提取数据的python库。Beautiful Soup模块自动将输入的文档转换为Unicode编码,输出文档转换为UTF-8编码,你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了,然后,仅仅需要说明一下原始编码方式就可以了。

例如:

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
# 创建对象
soup = BeautifulSoup(html_doc, features='lxml')
# 或者创建对象打开需要解析的html文件
# soup = BeautifulSoup(open('index.html'), features='lxml')
print('源代码为:', soup)# 打印解析的HTML代码

运行结果如下:

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

用Beautiful Soup爬取百度首页标题

from bs4 import BeautifulSoup
import requests

response = requests.get('http://news.baidu.com')
soup = BeautifulSoup(response.text, features='lxml')
print(soup.find('title').text)

运行结果如下:

百度新闻——海量中文资讯平台

最后希望大家能够喜欢,再给小编一个关注!

相关推荐

一篇文章认识JavaScript中的Web API

在了解webapi之前先要明白在我们声明变量三个关键字(var、let、const),我们到底该用哪一个?首先排除var,它是老牌的写法,会有很多问题,可以淘汰掉...我们在开发中建议const...

html5大神结合js带你研究古老读心术,你的心思早被猜透

javascript/HTML5课题:javascript开发读心术游戏PS:大爆料!javascript解密读心术游戏背后故事知识点:读心术原理算法独家揭秘,HTML5最新选择器,...

纯CSS实现3个圆圈横向排列不断闪烁的Loading特效

这个纯CSS实现的Loading特效是一个非常简单而实用的选择,它由三个圆圈横向排列,并不断闪烁。这种动画效果很适合用于页面加载过程中,为用户提供一个愉悦的等待体验。在这个特效的设计中,使用了CSS的...

网站建设知识分享系列文章三:符合用户体验的网页设计应如何做?

上篇文章向各位讲述了网站建设知识分享系列文章二:如何选择建站公司,今天我们来讲述下建站公司选定后,网站制作流程是怎样的,有哪些需要注意的细节性问题。选定建站公司,签订正规劳务合同后,最先开始的是设计环...

「更新」微信小程序 Lottie 动画组件 lottiejs-miniapp V1.1.0 发布

lottiejs-miniapp当前版本号:1.1.0npm地址:...

Web开发基础之jQuery javascript web开发

jQuery是一个JavaScript库。jQuery极大地简化了JavaScript编程。jQuery的语法设计可以使开发更加便捷,例如操作文档对象、选择DOM元素、制作动画效果、事件处理、使用Aj...

Web前端:JavaScript最强总结,最全面的零基础入门教程

JavaScript是网景(Netscape)公司开发的一种基于客户端浏览器、面向(基于)对象、事件驱动式的网页脚本语言。JavaScript语言的前身叫作Livescript。JavaScript...

jQuery 动画制作与特效 jquery的动画函数

使用show()和hide()方法在普通的javascript编程中,要实现元素的显示、隐藏通常是利用其CSS的display属性或者visibility属性。在jQuery中提供了show()和hi...

JavaScript+css实现的登录注册页面web前端html源码

大家好,今天给大家介绍一款,JavaScript+css实现的登录注册页面web前端html源码(图1),布局合理。送给大家哦,获取方式在本文末尾。文本框获取焦点动画特效(图2)源码完整,需要的朋友可...

CSS 3.0+HTML5.0制作各种网页特效

?1、C33实现点击图片渐渐放大特效??2、CSS3实现图片全屏背景特效?3、CSS3实现的鼠标移动到图片上不规则放大??3、jQuery+CSS3模拟苹果桌面系统??4、CSS3+jQuery照片...

js+css实现的按钮悬停动画特效html前端源码,随机元素弹出效果

大家好,今天给大家介绍一款,js+css实现的按钮悬停动画特效html页面前端源码,随机元素弹出(图1)。送给大家哦,获取方式在本文末尾。鼠标经过按钮区域的时候,会随机从不同位置上弹出很多小元素,效果...

Swiper - 免费开源、功能强大的触摸滑动js特效插件

简单配置就能实现手机、PC网页中滑动、焦点轮播图、tab切换和触摸导航等大部分功能。js滑动特效插件Swiper是一款纯javascript打造的滑动特效插件,主要用对移动端web开发...

html5精选特效代码分享(收藏) html酷炫特效

在网页设计过程中,我们会经常用到一些HTML5特效代码,下面就是为大家整理分享的一些好看炫酷且实用的HTML5特效代码,可以放心在您的应用程序中使用。一、Canvas跟随鼠标光标动画特效演示、下载地址...

玩转Markdown(2)——抽象语法树的提取与操纵

上一篇玩转Markdown——数据的分离存储与组件的原生渲染发布,转眼已经鸽了大半年了。最近在操纵mdast生成md文件的时候,心血来潮,把玩转Markdown(2)给补上了。...

任由文字肆意流淌,更自由的开源 Markdown 编辑器

对于创作平台来说内容编辑器是十分重要的功能,强大的编辑器可以让创作者专注于创作“笔”下生花。而最好取悦程序员创作者的方法之一就是支持Markdown写作,因为大多数程序员都是用Markdown...

取消回复欢迎 发表评论: