文章详情页

javascript - Python 爬虫 Ajax 页面直接request获取居然速度比selenium慢。

浏览：43日期：2022-08-04 16:42:25

问题描述

因为在爬取的网站需要账号登陆，不方便公开。因此我只能这样大致性的咨询，实在抱歉。

我需要爬一个目标网站的数据，发现在点击下一页时候，网址并没有改变.通过源码确定是使用了js外加ajax的样子.通过chrome的控制台，捕获到点击下一页时候，向指定地址发送了一条带多个参数的get指令。

原先采用selenium+phantomjs的方式暴力无脑方式爬取，一个页面大概5S左右就能获取，实际用浏览器打开也是这个速度。为了爬取大量的数据，准备改用多线程+直接requests.get目标地址的方式来采集，但是发现采集速度非常的慢，从5S降到的20s左右。

请教下，出现这样现象的原因可能是什么？我该如何解决？请指教

问题解答

回答1：

抱歉浪费了各位的时间- -是我开始测试的时候，周围有人再下迅雷，网络炸了。抱歉抱歉

Python 编程

上一条：python - 使用pandas的resample报错下一条：python - 相当于分组数据的合并，两个列表生成dataframe，但长度不同

相关文章：

1. sass - gem install compass 使用淘宝 Ruby 安装失败，出现 4042. javascript - js 对中文进行MD5加密和python结果不一样。3. mysql里的大表用mycat做水平拆分，是不是要先手动分好，再配置mycat4. window下mysql中文乱码怎么解决？？5. 为啥不用HBuilder?6. python - （初学者）代码运行不起来，求指导，谢谢！7. javascript - h5上的手机号默认没有识别8. python - 获取到的数据生成新的mysql表9. python的文件读写问题？10. 为什么python中实例检查推荐使用isinstance而不是type？

排行榜

					
					java - 关于 controller层与service层如何传值？
为什么python中实例检查推荐使用isinstance而不是type？
html5 - H5 SSE的本质是什么？
怎么用css截取字符？
算法 - 如何不用递归 列出 树（多叉） 中根节点到叶节点的所有路径（Java）
java - 异步上传图片无法即时回显
前端 - 请问display: -webkit-flex;是什么意思？
视频 - html5 video的autoplay 在智能手機上不運作？
javascript - js 对中文进行MD5加密和python结果不一样。
sass - gem install compass 使用淘宝 Ruby 安装失败，出现 404
javascript - windows下如何使用babel，遇到了困惑
				

热门标签