python - pyspider的分布式运行成功,2台slave跑,但是时间并没有缩短问题?
问题描述
1 台 master,2 台 slave,虚拟机 ubuntu 下,配置如下:
master 的 config.json:
{ 'taskdb': 'mysql+taskdb://pyspider:pyspider-pass@192.168.209.128:3306/taskdb', 'projectdb': 'mysql+projectdb://pyspider:pyspider-pass@192.168.209.128:3306/projectdb', 'resultdb': 'mysql+resultdb://pyspider:pyspider-pass@192.168.209.128:3306/resultdb', 'message_queue': 'redis://192.168.209.128:6379/db', 'phantomjs-proxy': '192.168.209.128:25555', 'scheduler':{ 'xmlrpc-host':'0.0.0.0', 'delete-time':10}, 'webui': { 'port': 5555, 'username': '', 'password': '', 'need-auth': false}}
在主机上运行
/usr/local/bin/pyspider -c /home/pu/pyspider/conf.json schedule/usr/local/bin/pyspider -c /home/pu/pyspider/conf.json webui/usr/local/bin/pyspider -c /home/pu/pyspider/conf.json phantomjs
slave 的 config.json:
{ 'taskdb': 'mysql+taskdb://pyspider:pyspider-pass@192.168.209.128:3306/taskdb', 'projectdb': 'mysql+projectdb://pyspider:pyspider-pass@192.168.209.128:3306/projectdb', 'resultdb': 'mysql+resultdb://pyspider:pyspider-pass@192.168.209.128:3306/resultdb', 'message_queue': 'redis://192.168.209.128:6379/db', 'phantomjs-proxy': '192.168.209.128:25555', 'fetcher':{'xmlrpc-host':'192.168.209.128'}}
在两个从机上运行
/usr/local/bin/pyspider -c /home/pu/pyspider/conf.json fetcher/usr/local/bin/pyspider -c /home/pu/pyspider/conf.json processor/usr/local/bin/pyspider -c /home/pu/pyspider/conf.json result_worker
三个终端
我是先命令行运行的,还没有用 Supervisor 来管理进程,想先分布式调试成功后再用这个管理进程,命令行只是多开几个终端而已。但是很奇怪,爬虫程序能很顺利的运行,但是单机跑和3台机子一起跑时间是一样的,就差几秒钟而已,求解?
我看了终端输出的信息,是 2 台 slave 的提取的 url 是不重复的,但是时间分开的有间隔的,比如说 slave1 运行 4 秒钟,然后 slave2 运行 3 秒钟,并不是并行的而是有顺序,好奇怪!难道是 schedule 那里是一个一个拿取任务,不能同时拿的吗?
问题解答
回答1:在控制台里控制速度。不管你是不是分布式,只要速度设置的一样,那么用的时间就一样。只有在硬件资源不够用时(或是说硬件有瓶颈达不到你设置的速度时)分布式才会提现出跑的快。个人这么理解