文章详情页

网页爬虫 - 博客园博客中的图片怎么用python爬取下来？

浏览：181日期：2022-07-25 17:42:22

问题描述

写了一小段代码，爬取博客园博客中的图片，这段代码对部分链接有效，还有一部分链接一爬就报错，这是什么原因呢？

#coding=utf-8import urllibimport refrom lxml import etree#解析地址def getHtml(url): page = urllib.urlopen(url) html = page.read() return html#获取地址并建树url = 'http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html'html = getHtml(url)html = html.decode('utf-8')tree = etree.HTML(html)#保存图片至本地reg = r’src='https://www.haobala.com/wenda/(.*?)' alt’imgre = re.compile(reg)imglist = re.findall(imgre, html)x = 0for imgurl in imglist: urllib.urlretrieve(imgurl, ’%s.jpg’ % x) x += 1

如图，可以正确爬取图片网页爬虫 - 博客园博客中的图片怎么用python爬取下来？

若把url换为

url = 'http://www.cnblogs.com/baronzhang/p/6861258.html'

则立马报错

网页爬虫 - 博客园博客中的图片怎么用python爬取下来？

求解决，谢谢！

问题解答

回答1：

错误提示已经很明显了，你去看下网页源代码，匹配到的第一张图片是一个GIF格式的，并且还是相对路径，所以你是下载不到的，故提示IOerror，就算你下载到了，因为你指定了格式为JPG，你也打不开。因此你需要做的就是判断和筛选

for imgurl in imglist: if 'gif' not in imgurl:urllib.urlretrieve(imgurl, ’%s.jpg’ % x)x += 1

看下我增加的地方，当然这只是最简单的判断，但可以保证你第二个程序不会报错，也是给你一个思路！

Python 编程

上一条：Python链接加中午，输出中文不在链接里下一条：python - 关于单例的线程安全问题

相关文章：

1. css3 - 这个效果用 CSS 可以实现吗？border-image2. node.js - express框架，设置浏览器从缓存中读取静态文件，只有js从缓存中读取了，css还有一些图片为何没有从缓存中读取？3. java - web端百度网盘的一个操作为什么要分两次请求服务器, 有什么好处吗4. node.js - nodejs+express+vue5. java - Spring boot 读取放在 jar 包外的，log4j 配置文件，系统有创建日志文件，不写入日志信息。6. Angular.js 无法设置Authorization头，该怎么解决？7. java - 如何点击按钮，重新运行（我是初学者）？8. javascript - 请指条明路，angular的$event，在select中却是undefined？9. javascript - QQ第三方登录的问题10. docker内创建jenkins访问另一个容器下的服务器问题

排行榜

					
					node.js - nodejs+express+vue
java - web端百度网盘的一个操作为什么要分两次请求服务器, 有什么好处吗
Angular.js 无法设置Authorization头，该怎么解决？
javascript - 请指条明路，angular的$event，在select中却是undefined？
java - Spring boot 读取 放在 jar 包外的，log4j 配置文件，系统有创建日志文件，不写入日志信息。
angular.js - angular内容过长展开收起效果
css3 - 这个效果用 CSS 可以实现吗？border-image
node.js - express框架，设置浏览器从缓存中读取静态文件，只有js从缓存中读取了，css还有一些图片为何没有从缓存中读取？
javascript - QQ第三方登录的问题
docker内创建jenkins访问另一个容器下的服务器问题
java - 如何点击按钮，重新运行（我是初学者）？
				

热门标签