文章详情页
python 爬虫 解析效率如何提升?
问题描述
现在采用的是在windows 环境下 采用多线程的方式进行爬取,使用beautifulsoup+lxml进行解析.
N个爬取线程->解析队列->1个解析线程->存储队列->1个存储线程
整个执行程序的效率卡在计算密集的解析线程中,如果只是增加解析线程数量的话,反而增加线程切换开销速度变慢。
请问下 有什么办法可以较为明显的提升解析效率?
根据两位大腿的说明 准备采用异步爬取->解析队列->N个解析进程->存储队列->存储线程
准备开工
问题解答
回答1:其实我觉得, 你在前面N个爬取线程 可以换成协程/线程池实现, 因为你在频繁创建线程本省一种性能耗费, 用线程池虽然可以减少这部分的损耗, 但是上下文切换还是无法避免, 所以协程这方面, 应该是比较合适的.1个解析线程 换成 进程池,多开几个进程去计算密集处理, 其余应该可以不用改, 如果还想再搞, 将核心部分用c/c++ 重写咯, 希望可以帮到你
回答2:我的做法是多进程。多进程的好处是当单机性能不够的时候,可以随时切换为分布式爬虫。
回答3:可以网上找下tornade异步爬虫吧,我正在用这个
相关文章:
1. html5 - 目前 公司App 嵌入H5页面 做个 手机支付功能 没有做过 所以 请求各位有经验的 给个思路2. javascript - 小白求解:mac 下如何设置nodejs express的 NODE_NEV 环境变量3. javascript - 实参和形参有哪些通俗的命名吗?尤其形参4. 找一个权威、实战的微信扫码授权登录网站的开发教程或者文章5. mysql5.7 json查询支持6. Python如何考虑代码注入安全?7. javascript - avalon.js ms-on 事件绑定无效 ?8. javascript - 请问一下react-native 布局的时候,尺寸的大小是如何确定的呢?9. javascript - js 修改表格元素的,可以用DOM操作实现吗?10. javascript - jQuery中live事件在移动微信端下没有效果;代码如下
排行榜