文章详情页

python - 用scrapy写爬虫,发送请求后,服务器全都直接返回202,该怎么办呢?

浏览：95日期：2022-06-27 13:36:39

问题描述

我爬取的是中国裁判文书网,之前还是好好的,我发送请求,服务器返回200,然后我处理body中的数据

但是一个星期之前,突然所有的请求都返回202,然后response body里也是空的,完全拿不到数据,我在回调函数中阻塞等待while(response.status == 202)就sleep也没用,status并不会变化

该怎么办呢?

我使用了crwalera的ip代理服务,之前有段时间也是202,但是过了一天就好了,但这次已经持续了一个星期了,很奇怪

我觉得就是目标网站负载太大,所以采用异步的方式发送数据,但是我在scrapy里有怎么正确地收到他的数据呢?

问题解答

回答1：

这种情况通常是违规抓取，服务端进行了防抓取限制。如果是合法抓取的话，可以和内容方面沟通，看看是不是有误伤，如果是非法抓取，还建议不要这样做了，严重的话可能有被起诉的风险

回答2：

被防采集了，可以试试换ip或寻找防采的限制漏洞

Python 编程

上一条：Python Selenium WebDriver如何刷新当前页面下一条：python - 网站对账号访问频率限制

相关文章：

1. javascript - nodejs 使用request-promise发送请求后返回结果无法获取。

排行榜

					
					docker-compose中volumes的问题
docker  下面创建的IMAGE 他们的 ID 一样？这个是怎么回事？？？？
vim - docker中新的ubuntu12.04镜像,运行vi提示,找不到命名.
python 多进程 或者 多线程下如何高效的同步数据?
java - Hibernate查询的数据是存放在session中吗？
angular.js - angular内容过长展开收起效果
docker-compose 为何找不到配置文件？
android - 添加multidex后在部分机型上产生anr的问题，该如何解决
angular.js - node.js中下载的angulae无法引入
php - 想要远程推送emjio ios端怎么搞 需要怎么配合
一个走错路的23岁傻小子的提问
				

热门标签