文章详情页

分布式爬虫 - scrapy-redis 分布式系统？

浏览：71日期：2024-07-11 09:26:03

问题描述

现在可以从网上下载这些代码，怎么进行部署和运行代码从github上下载了关于分布式的代码，不知道怎么用，求各位大神指点下。。。下面是网址https://github.com/rolando/scrapy-redis环境已经按照上面的配置好了，但不知道如何实现分布式。分布式我是这样理解的，有一个redis服务器，从一个网页上获取url种子，并将url种子放到redis服务器了，然后将这些url种子分配给其他机器。中间存在调度方面的问题，以及服务器和机器间的通信。

谢谢。。。

问题解答

回答1：

感觉这个不是一两句话可以描述清楚的。

我之前参考的这篇博文，希望对你有帮助。

说说我个人的理解吧。

scrapy使用改良之后的python自带的collection.deque来存放待爬取的request,该怎么让两个以上的Spider共用这个deque呢？

待爬队列都不能共享，分布式就是无稽之谈。scrapy-redis提供了一个解决方法，把collection.deque换成redis数据库，多个爬虫从同一个redis服务器存放要爬取的request，这样就能让多个spider去同一个数据库里读取，这样分布式的主要问题就解决了.

注意：并不是换了redis来存放request，scrapy就能直接分布式了!

scrapy中跟待爬队列直接相关的就是调度器Scheduler。

参考scrapy的结构分布式爬虫 - scrapy-redis 分布式系统？

它负责对新的request进行入列操作，取出下一个要爬取的request等操作。所以，换了redis之后，其他组件都要改动。

所以，我个人的理解就是，在多个机器上部署相同的爬虫，分布式部署redis,参考地址我的博客，比较简单。而这些工作，包括url去重，就是已经写好的scrapy-redis框架的功能。

参考地址在这里，你可以去下载example看看具体的实现。我最近也在搞这个scrapy-redis，等我部署好了在更新的这个答案。

你有新的进展可以分享出来交流。

回答2：

@韦轩您好，我看这段评论在15.10.11，请问您现在是否有结果了？能否推荐一些您的博客，谢谢您～可以联系我chenjian158978@gmail.com

上一条：redis集群 - redis主从配置目的是什么下一条：redis的发布订阅就是一种消息队列么

相关文章：

1. javascript - 修改表单多选项时和后台同事配合的问题。2. javascript - 关于Js中 this的一道题3. ubuntu 远程管理KVM设置问题4. javascript - H5页面怎么查看console信息？5. docker gitlab 如何git clone？6. 网页爬虫 - Python：爬虫的中文编码问题？7. css - 手机页面在安卓和苹果浏览器显示不同的小小问题8. javascript - vue生成一维码?求助！！！！！急9. 如何判断数据库的库和表是否存在？10. browsersync检测的静态页面只能用index.html命名，用demo.html就不能实时同步，检测动态页面的时候，比如wamp环境下，用browsersync能打开页面，但不能实现同步

排行榜

					
					网页爬虫 - Python：爬虫的中文编码问题？
javascript - H5页面怎么查看console信息？
css - 手机页面在安卓和苹果浏览器显示不同的小小问题
ubuntu 远程管理KVM设置问题
docker gitlab 如何git clone？
javascript - 修改表单多选项时和后台同事配合的问题。
javascript - vue生成一维码?求助！！！！！急
javascript - 关于Js中 this的一道题
html5 - 纯CSS怎么做出这种一模一样的导航条导航块那里还有个下拉菜单，请大家指导一下
java - 在outofmemory 的情况下如何获取heap dump
mysql - 我的myeclipse一直连显示数据库连接失败，不知道为什么
				

热门标签