文章详情页

Python Scrapy多页数据爬取实现过程解析

浏览：129日期：2022-07-21 14:49:48

1.先指定通用模板

url = ’https://www.qiushibaike.com/text/page/%d/’#通用的url模板pageNum = 1

2.对parse方法递归处理

parse第一次调用表示的是用来解析第一页对应页面中的数据

对后面的页码的数据要进行手动发送

if self.pageNum <= 5: self.pageNum += 1 new_url = format(self.url%self.pageNum) #手动请求(get)的发送 yield scrapy.Request(new_url,callback=self.parse)

完整示例

class QiubaiSpider(scrapy.Spider): name = ’qiubai’ # allowed_domains = [’www.xxx.com’] start_urls = [’https://www.qiushibaike.com/text/’] url = ’https://www.qiushibaike.com/text/page/%d/’#通用的url模板 pageNum = 1 #parse第一次调用表示的是用来解析第一页对应页面中的段子内容和作者 def parse(self, response): div_list = response.xpath(’//*[@id='content-left']/div’) all_data = [] for div in div_list: author = div.xpath(’./div[1]/a[2]/h2/text()’).extract_first() content = div.xpath(’./a[1]/div/span//text()’).extract() content = ’’.join(content) # 将解析的数据存储到item对象 item = QiubaiproItem() item[’author’] = author item[’content’] = content # 将item提交给管道 yield item # item一定是提交给了优先级最高的管道类 if self.pageNum <= 5: self.pageNum += 1 new_url = format(self.url%self.pageNum) #手动请求(get)的发送 yield scrapy.Request(new_url,callback=self.parse)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持好吧啦网。

Python 编程

上一条：Python Scrapy图片爬取原理及代码实例下一条：Python使用socketServer包搭建简易服务器过程详解

相关文章：

1. 怎样才能用js生成xmldom对象，并且在firefox中也实现xml数据岛？2. ASP动态网页制作技术经验分享3. jsp实现textarea中的文字保存换行空格存到数据库的方法4. css代码优化的12个技巧5. .NET使用YARP通过编码方式配置域名转发实现反向代理6. CSS3实现动态翻牌效果仿百度贴吧3D翻牌一次动画特效7. jsp cookie+session实现简易自动登录8. XHTML 1.0：标记新的开端9. css进阶学习选择符10. XML入门的常见问题(三)

排行榜

					
					基于javascript处理nginx请求过程详解
PHP安全-会话劫持
Django中如何使用Channels功能
js+audio实现音乐播放器
浅谈python多线程和多线程变量共享问题介绍
如何在PHP中读写文件
详解IntelliJ IDEA 自带的 HTTP Client 接口调用插件吊打 Postman
10个JavaScript难点
IDEA编译乱码Build Output提示信息乱码
JS实现小米轮播图
CSS3实现动态翻牌效果 仿百度贴吧3D翻牌一次动画特效
				

热门标签