文章详情页

python - scrapy抓取知网response的内容重复

浏览：78日期：2022-06-27 08:47:44

问题描述

遍历请求翻页的url

for i in range(3): yield Request('http:xx/page/%s'%str(i),callback=self.parse_page)

结果response请求成功但是每次内容都一样的没变化都是第一次请求时的内容，但是用postman分别请求分页的url就没有这问题。= = 是被ban了吗之前就不会这样

问题解答

回答1：

那就要分析一下用postman或者浏览器访问时请求的header头和用scrapy请求头有什么区别

回答2：

被反爬识别到了

回答3：

看下控制台打印的log，看看是否正确抓取了下一页2017-06-29 09:26:13 [scrapy] DEBUG: Scraped from <200 http:xx/page/x>,注意最后一个x(http:xx/page/x)是否是变化的

Python 编程

上一条：PC端访问却变成移动端地址问题#python#scrapy下一条：【python小白】问关于导入嵌套的包的问题

相关文章：

1. html5 - 使用angular中，图片上传功能中选择多张图片是怎么实现的？有什么好的思路吗？2. javascript - jquery选择的dom元素如何更新？3. .......4. python - Django问题 ’WSGIRequest’ object has no attribute ’user’5. 数据库 - mysql boolean型无法插入true6. centos - apache配置django报错：cannot be loaded as Python modules7. python - flask jinjia2 中怎么定义嵌套变量8. javascript - URL中有#号如何来获取参数啊？ nodejs9. MYSQL 的 SELECT 语句中如何做到判断字段为空10. javascript - H5页面无缝轮播

排行榜

					
					centos - apache配置django报错：cannot be loaded as Python modules
java - 为什么这段代码执行偶尔能够达到50~100ms？
数据库 - mysql boolean型无法插入true
javascript - jquery选择的dom元素如何更新？
算法 - 如何不用递归 列出 树（多叉） 中根节点到叶节点的所有路径（Java）
MYSQL 的 SELECT 语句中如何做到判断字段为空
如何去实现memcache的gui？
java - Spring boot 改成war后部署到本地的tomcat上,无法访问项目
python - Django问题 ’WSGIRequest’ object has no attribute ’user’
.......
javascript - nidejs环境设置操作一直出现这种问题怎么解决？
				

热门标签