文章详情页

Python常见反爬虫机制解决方案

浏览：2日期：2022-07-23 16:18:55

1、使用代理

适用情况：限制IP地址情况，也可解决由于“频繁点击”而需要输入验证码登陆的情况。

这种情况最好的办法就是维护一个代理IP池，网上有很多免费的代理IP，良莠不齐，可以通过筛选找到能用的。对于“频繁点击”的情况，我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。

proxies = {’http’:’http://XX.XX.XX.XX:XXXX’}Requests： import requests response = requests.get(url=url, proxies=proxies)Urllib2： import urllib2 proxy_support = urllib2.ProxyHandler(proxies) opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler) urllib2.install_opener(opener) # 安装opener，此后调用urlopen()时都会使用安装过的opener对象 response = urllib2.urlopen(url)

2、时间设置

适用情况：限制频率情况。

Requests，Urllib2都可以使用time库的sleep()函数：

import timetime.sleep(1)

3、伪装成浏览器，或者反“反盗链”

有些网站会检查你是不是真的浏览器访问，还是机器自动访问的。这种情况，加上User-Agent，表明你是浏览器访问即可。有时还

会检查是否带Referer信息还会检查你的Referer是否合法，一般再加上Referer。

headers = {’User-Agent’:’XXXXX’} # 伪装成浏览器访问，适用于拒绝爬虫的网站headers = {’Referer’:’XXXXX’}headers = {’User-Agent’:’XXXXX’, ’Referer’:’XXXXX’}Requests： response = requests.get(url=url, headers=headers)Urllib2： import urllib, urllib2 req = urllib2.Request(url=url, headers=headers) response = urllib2.urlopen(req)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持好吧啦网。

Python 编程

上一条：Python网络爬虫四大选择器用法原理总结下一条：解决python运行启动报错问题

相关文章：

1. ASP中解决“对象关闭时,不允许操作。”的诡异问题……2. 低版本IE正常运行HTML5+CSS3网站的3种解决方案3. 将properties文件的配置设置为整个Web应用的全局变量实现方法4. css进阶学习选择符5. asp.net core项目授权流程详解6. asp中response.write("中文")或者js中文乱码问题7. ASP.NET Core按用户等级授权的方法8. HTML DOM setInterval和clearInterval方法案例详解9. ASP动态网页制作技术经验分享10. 得到XML文档大小的方法

排行榜

					
					IntelliJ IDEA删除类的方法步骤
源码解读Spring-Integration执行过程
Docker部署ELK7.3.0日志收集服务最佳实践
Android使用RollViewPager实现轮播图
Java模式设计之多态模式与多语言支持
vue路由切换时取消之前的所有请求操作
低版本IE正常运行HTML5+CSS3网站的3种解决方案
asp中response.write("中文")或者js中文乱码问题
asp.net core项目授权流程详解
ASP.NET Core按用户等级授权的方法
.NET 中配置从xml转向json方法示例详解
				

热门标签