文章详情页

python - 如何解决scarpy-redis空跑问题？

浏览：70日期：2022-06-25 16:52:42

问题描述

scrapy-redis框架中，reids存储的xxx:requests已经爬取完毕，但程序仍然一直运行，如何自动停止程序，而不是一直在空跑？

2017-07-03 09:17:06 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2017-07-03 09:18:06 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

可以通过engine.close_spider(spider, ’reason’)来停止程序的运行。

def next_request(self):block_pop_timeout = self.idle_before_closerequest = self.queue.pop(block_pop_timeout)if request and self.stats: self.stats.inc_value(’scheduler/dequeued/redis’, spider=self.spider)if request is None: self.spider.crawler.engine.close_spider(self.spider, ’queue is empty’)return request

还有一个问题不明白：当通过engine.close_spider(spider, ’reason’)来关闭spider时，会出现几个错误之后才能关闭。

# 正常关闭2017-07-03 18:02:38 [scrapy.core.engine] INFO: Closing spider (queue is empty)2017-07-03 18:02:38 [scrapy.statscollectors] INFO: Dumping Scrapy stats:{’finish_reason’: ’queue is empty’, ’finish_time’: datetime.datetime(2017, 7, 3, 10, 2, 38, 616021), ’log_count/INFO’: 8, ’start_time’: datetime.datetime(2017, 7, 3, 10, 2, 38, 600382)}2017-07-03 18:02:38 [scrapy.core.engine] INFO: Spider closed (queue is empty)# 之后还会出现几个错误才关闭spider，难道spider刚启动时会启动多个线程一起抓取， # 然后其中一个线程关闭了spider，其他线程就找不到spider才会报错！Unhandled ErrorTraceback (most recent call last): File 'D:/papp/project/launch.py', line 37, in <module> process.start() File 'D:Program Filespython3libsite-packagesscrapycrawler.py', line 285, in start reactor.run(installSignalHandlers=False) # blocking call File 'D:Program Filespython3libsite-packagestwistedinternetbase.py', line 1243, in run self.mainLoop() File 'D:Program Filespython3libsite-packagestwistedinternetbase.py', line 1252, in mainLoop self.runUntilCurrent()--- <exception caught here> --- File 'D:Program Filespython3libsite-packagestwistedinternetbase.py', line 878, in runUntilCurrent call.func(*call.args, **call.kw) File 'D:Program Filespython3libsite-packagesscrapyutilsreactor.py', line 41, in __call__ return self._func(*self._a, **self._kw) File 'D:Program Filespython3libsite-packagesscrapycoreengine.py', line 137, in _next_request if self.spider_is_idle(spider) and slot.close_if_idle: File 'D:Program Filespython3libsite-packagesscrapycoreengine.py', line 189, in spider_is_idle if self.slot.start_requests is not None:builtins.AttributeError: ’NoneType’ object has no attribute ’start_requests’

问题解答

回答1：

怎样知道放的requests爬取完毕，这个要定义才知道如果不复杂，可以使用内部扩展关掉！

scrapy.contrib.closespider.CloseSpider

CLOSESPIDER_TIMEOUTCLOSESPIDER_ITEMCOUNTCLOSESPIDER_PAGECOUNTCLOSESPIDER_ERRORCOUNThttp://scrapy-chs.readthedocs...

Python 编程

上一条：win10 hyper-v 安装Ubuntu黑屏下一条：python redis 多进程使用

相关文章：

1. mysql - 一个表和多个表是多对多的关系，该怎么设计2. python 如何实现PHP替换图片链接3. 一个mysql联表查询的问题4. html5 - iOS的webview加载出来的H5网页，怎么修改html标签select的样式字体？5. javascript - git clone 下来的项目想在本地运行 npm run install 报错6. mysql优化 - mysql count(id)查询速度如何优化?7. 主从备份 - 跪求mysql 高可用主从方案8. angular.js - 三大框架react、vue、angular的分析9. mysql主从 - 请教下mysql 主动-被动模式的双主配置和主从配置在应用上有什么区别？10. python如何不改动文件的情况下修改文件的修改日期

排行榜

					
					python 如何实现PHP替换图片 链接
html5 - iOS的webview加载出来的H5网页，怎么修改html标签select的样式字体？
一个mysql联表查询的问题
mysql - 一个表和多个表是多对多的关系，该怎么设计
主从备份 - 跪求mysql 高可用主从方案
angular.js - 三大框架react、vue、angular的分析
mysql优化 - mysql count(id)查询速度如何优化?
javascript - git clone 下来的项目 想在本地运行 npm run install 报错
angular.js - 不适用其他构建工具，怎么搭建angular1项目
python - django 里自定义的  login 方法，如何使用 login_required()
android-studio - Android 动态壁纸LayoutParams问题
				

热门标签