文章详情页

python - 用urllib抓取网页上的下载链接，目标文件是xls形式，但发现抓下来的xls是空表，里面只有一句报错信息，求帮助。

浏览：142日期：2022-07-24 08:56:37

问题描述

想用urllib抓取上交所股票列表的xls下载链接，如下图红色小框：

发现抓下来的xls只有报错信息：

python - 用urllib抓取网页上的下载链接，目标文件是xls形式，但发现抓下来的xls是空表，里面只有一句报错信息，求帮助。

请问要怎样才能把有内容的xls抓下来？

代码如下

from urllib import requestfrom datetime import datetime# -*- coding:utf-8 -*-url = ’http://query.sse.com.cn/security/stock/downloadStockListFile.do?’ ’csrcCode=&stockCode=&areaName=&stockType=1’myheaders = [(’User - Agent’, ’Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13’ ’ (KHTML, like Gecko) Version/3.1 Safari/525.13’),]opener = request.build_opener()opener.addheaders = myheadersrequest.install_opener(opener)local = '/Users/Mty/Downloads/data/' + str(datetime.now().date()) + ' .xls'request.urlretrieve(url, local)

问题解答

回答1：

可以在标红线的url上看到返回的公司信息，剩下的就是模拟浏览器请求这个url了，request header中的refer一定不能省略，不然会报403

记住要模拟 refer 这一项的值。

http://blog.csdn.net/ssshen14...这个是已有的解决方案

回答2：

查看cookie,referer

Python 编程

上一条：python - 关于树模型是否需要对离散型变量作onehot？下一条：cookies - python用cookie登录网站失败

排行榜

					
					css3 - [CSS] 动画效果 3D翻转bug
主从备份 - 跪求mysql 高可用主从方案
mysql优化 - mysql count(id)查询速度如何优化?
angular.js - 不适用其他构建工具，怎么搭建angular1项目
python - django 里自定义的  login 方法，如何使用 login_required()
angular.js - angularjs 用ng-reapt渲染的dom  怎么获取上面的属性
node.js - node_moduls太多了
angular.js - Angular路由和express路由的组合使用问题
python如何不改动文件的情况下修改文件的 修改日期
mysql主从 - 请教下mysql 主动-被动模式的双主配置 和 主从配置在应用上有什么区别？
java - 计算机图像表示方法？
				

热门标签