文章详情页

Python如何利用Selenium或者PhantomJS爬取动态网页内容

浏览：72日期：2022-06-30 17:58:04

问题描述

想用python做股票量化交易，第一步就是获取股票的历史数据。访问http://data.eastmoney.com/sto...网页，将网页源码打开后看不见表格中的数据，据说是利用ajax技术加载的。在网上看见可以利用selenium和phantomJS来获取这些动态网页内容，但是不知道如何获取完整源码。请高手指点迷津

问题解答

回答1：

事实上，我刚才试了一下，页面不是用xhr加载的，在页面的源代码中已经有了，然后调用了一个类把数据加载为一个table。比如，首页的数据：

Python如何利用Selenium或者PhantomJS爬取动态网页内容

然后，提取就直接使用re提取就可以了，得到文本以后json解析就好了。先写到这里。+++++++++++++++++++++++++++++++++++++++++

然后，就是这个网站不使用xhr加载数据而是使用的js来加载json数据，动态解析来显示。具体分析需要用到js的知识，如果你了解也可以自己尝试解析。

我尝试了一下。

from urllib.parse import quoteimport timeimport requestsurl = 'http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=FD&sty=TSTC&st={sortType}&sr={sortRule}&p={page}&ps={pageSize}&js=var {jsname}=(x){param}'params = { 'sortType': 1, 'sortRule': 1, 'page': 2, 'pageSize': 50, 'jsname': 'Aafdafgq', # 这里使用的是随机字符串，8位 'param': '&mkt=0&rt='}params['param'] += str(int(time.time()/30)) # 当前时间url = url.format(**params)url = quote(url, safe=':=/?&()')req = requests.get(url)req.text

Python如何利用Selenium或者PhantomJS爬取动态网页内容

回答2：

用这个组合好处是简单暴力，坏处是效率较低。相当于打开一个你看不到的浏览器加载页面，再把运算好的结果读取。新人学爬虫的话推荐 python网络数据采集这本动物书。你需要的说明在采集动态页面那章。这书很薄很实用。

回答3：

我对js和json都不太了解，刚刚爬虫入门。经过你的提示，我再查看了一下源码，发现在defjson里面有这些数据，不明白是怎样把json里的数据显示到tbody里面的。我用pandas的read_html可以抓到这些数据，但是最后两列会丢失。看来我得先去看看js和json

Python 编程

上一条：python - Scrapy模拟登陆遇到404问题下一条：python2.7 urllib2 获取网页显示不全

相关文章：

1. python - （初学者）代码运行不起来，求指导，谢谢！2. 为什么python中实例检查推荐使用isinstance而不是type？3. mysql里的大表用mycat做水平拆分，是不是要先手动分好，再配置mycat4. window下mysql中文乱码怎么解决？？5. sass - gem install compass 使用淘宝 Ruby 安装失败，出现 4046. html5 - H5 SSE的本质是什么？7. javascript - h5上的手机号默认没有识别8. python - 获取到的数据生成新的mysql表9. python的文件读写问题？10. javascript - js 对中文进行MD5加密和python结果不一样。

排行榜

					
					java - 关于 controller层与service层如何传值？
为什么python中实例检查推荐使用isinstance而不是type？
html5 - H5 SSE的本质是什么？
怎么用css截取字符？
视频 - html5 video的autoplay 在智能手機上不運作？
javascript - js 对中文进行MD5加密和python结果不一样。
前端 - 请问display: -webkit-flex;是什么意思？
sass - gem install compass 使用淘宝 Ruby 安装失败，出现 404
android - WebView偶尔无法加载，没有发起请求
javascript - 可以使用splice却无法使用substring
mysql里的大表用mycat做水平拆分，是不是要先手动分好，再配置mycat
				

热门标签