文章详情页

Python Scrapy框架：通用爬虫之CrawlSpider用法简单示例

浏览：20日期：2022-07-30 13:12:21

本文实例讲述了Python Scrapy框架：通用爬虫之CrawlSpider用法。分享给大家供大家参考，具体如下：

步骤01: 创建爬虫项目

scrapy startproject quotes

步骤02: 创建爬虫模版

scrapy genspider -t quotes quotes.toscrape.com

步骤03: 配置爬虫文件quotes.py

import scrapyfrom scrapy.spiders import CrawlSpider, Rulefrom scrapy.linkextractors import LinkExtractorclass Quotes(CrawlSpider): # 爬虫名称 name = 'get_quotes' allow_domain = [’quotes.toscrape.com’] start_urls = [’http://quotes.toscrape.com/’]# 设定规则 rules = ( # 对于quotes内容页URL，调用parse_quotes处理， # 并以此规则跟进获取的链接 Rule(LinkExtractor(allow=r’/page/d+’), callback=’parse_quotes’, follow=True), # 对于author内容页URL，调用parse_author处理，提取数据 Rule(LinkExtractor(allow=r’/author/w+’), callback=’parse_author’) )# 提取内容页数据方法 def parse_quotes(self, response): for quote in response.css('.quote'): yield {’content’: quote.css(’.text::text’).extract_first(), ’author’: quote.css(’.author::text’).extract_first(), ’tags’: quote.css(’.tag::text’).extract() } # 获取作者数据方法 def parse_author(self, response): name = response.css(’.author-title::text’).extract_first() author_born_date = response.css(’.author-born-date::text’).extract_first() author_bron_location = response.css(’.author-born-location::text’).extract_first() author_description = response.css(’.author-description::text’).extract_first() return ({’name’: name, ’author_bron_date’: author_born_date, ’author_bron_location’: author_bron_location, ’author_description’: author_description })

步骤04: 运行爬虫

scrapy crawl quotes

更多相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家基于Scrapy框架的Python程序设计有所帮助。

Python 编程

上一条：Python批量将图片灰度化的实现代码下一条：Python实现AI换脸功能

相关文章：

1. xpath简介_动力节点Java学院整理2. uni-app结合.NET 7实现微信小程序订阅消息推送3. asp.net core 中的Jwt(Json Web Token)的使用详解4. python文件处理--文件读写详解5. XML文档搜索使用小结6. Python 改变数组类型为uint8的实现7. Java：面向未来的七大强力新特性8. 如何将asp.net core程序部署到Linux服务器9. 详解如何创建Python元类10. JavaWeb Servlet中url-pattern的使用

排行榜

					
					xpath简介_动力节点Java学院整理
JavaWeb Servlet中url-pattern的使用
IntelliJ IDEA弹出“IntelliJ IDEA License Activation”的处理方法
asp.net core 中的Jwt(Json Web Token)的使用详解
XML文档搜索使用小结
如何将asp.net core程序部署到Linux服务器
IntelliJ IDEA导入jar包的方法
PHP安全之简介和总则
在Windows 2000 IIS上安装PHP4.0正式版
uni-app结合.NET 7实现微信小程序订阅消息推送
常用数据库JDBC连接写法(转摘)
				

热门标签