文章详情页

python 常见的反爬虫策略

浏览：4日期：2022-07-09 16:54:40

1、判断请求头来进行反爬

这是很早期的网站进行的反爬方式

User-Agent 用户代理referer 请求来自哪里cookie 也可以用来做访问凭证解决办法：请求头里面添加对应的参数（复制浏览器里面的数据）

2、根据用户行为来进行反爬

请求频率过高，服务器设置规定时间之内的请求阈值解决办法：降低请求频率或者使用代理（IP代理）网页中设置一些陷阱（正常用户访问不到但是爬虫可以访问到）解决办法：分析网页，避开这些特殊陷阱请求间隔太短，返回相同的数据解决办法：增加请求间隔

3、js加密

反爬方式中较为难处理的一类。js加密的原理：服务器响应给浏览器的js文件，可以动态的生成一些加密参数，浏览器会根据js的计算得到这些参数，在请求中带入进来，如果请求中没有这些参数，那么服务器就任务请求无效。

python 常见的反爬虫策略

4、字体加密

字体反爬，是一种常见的反爬技术，网站采用了自定义的字体文件，在浏览器上正常显示，但是爬虫抓取下来的数据要么就是乱码，要么就是变成其他字符。采用自定义字体文件是CSS3的新特性，熟悉前端的同学可能知道，就是font-face属性。

python 常见的反爬虫策略

5、登录验证码

使用Python爬取网页内容时往往会遇到使用验证码登陆才能访问其网站，不同网站的使用的验证码也不同，在最开始使用简单验证码，识别数字，但是随着反爬的不断发展，慢慢设计出了更多复杂的验证码，比如：内容验证码、滑动验证码、图片拼接验证码等等。网上有很多打码平台，通过注册账号，调用平台接口，进行验证码的验证。

python 常见的反爬虫策略

6、md5相关知识

MD5，消息摘要算法，一种被广泛使用的密码散列函数，可以产生出一个128位（16字节）的散列值（hash value），用于确保信息传输完整一致。MD5是最常见的摘要算法，速度很快，生成结果是固定的128 bit字节，通常用一个32位的16进制字符串表示。MD5的特点：1.不可逆：不能从密文推导出明文。2.不管明文长度为多少，密文的长度都固定。3.密文之间不会重复。

import hashlibprint(hashlib.md5(’python’.encode()).hexdigest())

字符串python加密后的结果：

23eeeb4347bdd26bfc6b7ee9a3b755dd

7、base64

Base64是网络上最常见的用于传输8Bit字节码的编码方式之一，Base64就是一种基于64个可打印字符来表示二进制数据的方法。Base64编码是从二进制到字符的过程，可用于在HTTP环境下传递较长的标识信息。采用Base64编码具有不可读性，需要解码后才能阅读。

import base64#python中base64的加密print(base64.b64encode(’python’.encode()).decode())#python中base64的解密print(base64.b64decode(’Y2hpbmE=’.encode()).decode())

结果：

cHl0aG9uchina

二、验证码验证

自己动手看验证码(古诗词网)

import requestsurl = 'gushiwen.org'session = requests.Session()text = session.get(url).text# 解析响应，找到验证码的图片地址，# 下载验证码图片，保存with open(’code.jpg’, ’wb’)as f: f.write(’验证码的url地址’.encode())code = input(’验证码是: ’)login_url = 'login.com'data = { 'username': ’xx’, 'password': ’xx’, 'code': code}requests.post(url, data=data)

使用打码平台（图鉴）

新建一个captcha_api.py

import jsonimport requestsimport base64from io import BytesIOfrom PIL import Imagefrom sys import version_infodef base64_api(uname, pwd, img): img = img.convert(’RGB’) buffered = BytesIO() img.save(buffered, format='JPEG') if version_info.major >= 3: b64 = str(base64.b64encode(buffered.getvalue()), encoding=’utf-8’) else: b64 = str(base64.b64encode(buffered.getvalue())) data = {'username': uname, 'password': pwd, 'image': b64} result = json.loads(requests.post('http://api.ttshitu.com/base64', json=data).text) if result[’success’]: return result['data']['result'] else: return result['message'] return ''def request_captcha(uname, pwd, img_path): img_path = img_path # 待验证的验证码路径 img = Image.open(img_path) result = base64_api(uname, pwd, img) # 传入账号密码和图片 print(result)

新建use_code.py，调用接口

img_path = ’图片路径’from captcha_api import request_captcharet = request_captcha('账号', '密码', img_path)

以上就是python 常见的反爬虫策略的详细内容，更多关于python反爬虫的资料请关注好吧啦网其它相关文章！

Python 编程

上一条：互斥锁解决 Python 中多线程共享全局变量的问题(推荐)下一条：python 5个实用的技巧

相关文章：

1. python中requests模拟登录的三种方式(携带cookie/session进行请求网站)2. IE6/IE7/IE8/IE9中tbody的innerHTML不能赋值的完美解决方案3. Android动画机制全解析4. JavaScript实现form提交，回车提交URL地址伪静态原创5. ASP常用日期格式化函数 FormatDate()6. Vue打包部署到Nginx时,css样式不生效的解决方式7. python opencv实现目标区域裁剪功能8. java不解压直接读取压缩包中文件的实现方法9. xml中的空格之完全解说10. 网页中img图片使用css实现等比例自动缩放不变形（代码已测试）

排行榜

					
					Vue打包部署到Nginx时,css样式不生效的解决方式
Docker 通过端口来连接一个容器的实现
JavaScript实现form提交，回车提交URL地址伪静态 原创
ASP常用日期格式化函数 FormatDate()
Django显示可视化图表的实践
IE6/IE7/IE8/IE9中tbody的innerHTML不能赋值的完美解决方案
xml中的空格之完全解说
Android动画机制全解析
网页中img图片使用css实现等比例自动缩放不变形（代码已测试）
python中requests模拟登录的三种方式(携带cookie/session进行请求网站)
java不解压直接读取压缩包中文件的实现方法
				

热门标签