文章详情页

python爬虫实例之获取动漫截图

浏览：4日期：2022-07-23 17:59:22

引言

之前有些无聊（呆在家里实在玩的腻了），然后就去B站看了一些python爬虫视频，没有进行基础的理论学习，也就是直接开始实战，感觉跟背公式一样的进行爬虫，也算行吧，至少还能爬一些东西，hhh。我今天来分享一个我的爬虫代码。

正文

话不多说，直接上完整代码

ps：这个代码有些问题每次我爬到fate的图片它就给我报错，我只好用个try来跳过了，如果有哪位大佬能帮我找出错误并给与纠正，我将不胜感激

import requests as rimport reimport osimport timefile_name = '动漫截图'if not os.path.exists(file_name): os.mkdir(file_name) for p in range(1,34): print('--------------------正在爬取第{}页内容------------------'.format(p)) url = ’https://www.acgimage.com/shot/recommend?page={}’.format(p) headers = {'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'} resp = r.get(url, headers=headers) html = resp.text images = re.findall(’data-original='(.*?)' ’, html) names =re.findall(’title='(.*?)'’, html) #print(images) #print(names) dic = dict(zip(images, names)) for image in images: time.sleep(1) print(image, dic[image]) name = dic[image] #name = image.split(’/’)[-1] i = r.get(image, headers=headers).content try: with open(file_name + ’/’ + name + ’.jpg’ , ’wb’) as f: f.write(i) except FileNotFoundError: continue

先导入要使用的库

import requests as rimport reimport osimport time

然后去分析要去爬的网址： https://www.acgimage.com/shot/recommend

下图是网址的内容：

python爬虫实例之获取动漫截图

好了 url已经确定

下面去寻找headers

python爬虫实例之获取动漫截图

找到user-agent 将其内容复制到headers中

第一步就完成了

下面是代码展示

url = ’https://www.acgimage.com/shot/recommend?page={}’.format(p)headers = {'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36' }

然后检索要爬的图片内容

python爬虫实例之获取动漫截图

从上图就可以找到图片的位置：data-origina=后面的内容以及图片的名字：title=后面的内容

然后用正则表达式re来检索就行了

images = re.findall(’data-original='(.*?)' ’, html)names =re.findall(’title='(.*?)'’, html)

最后将其保存就好了

i = r.get(image, headers=headers).contentwith open(file_name + ’/’ + name + ’.jpg’ , ’wb’) as f: f.write(i)

还有就是一些细节了

比如换页

第一页网址：

https://www.acgimage.com/shot/recommend

第二页网址：https://www.acgimage.com/shot/recommend?page=2

然后将page后面的数字改动就可以跳到相应的页面

换页的问题也就解决了

or p in range(1,34): url = ’https://www.acgimage.com/shot/recommend?page={}’.format(p)

以及将爬到的图片放到自己建立的文件zh

使用了os库

file_name = '动漫截图' if not os.path.exists(file_name): os.mkdir(file_name)

以及为了不影响爬取的网站使用了sleep函数

虽然爬取的速度慢了一些

但是这是应遵守的道德

time.sleep(1)

以上这就是我的爬虫过程

还是希望大佬能解决我的错误之处

万分感谢

总结

到此这篇关于python爬虫实例之获取动漫截图的文章就介绍到这了,更多相关python爬虫获取动漫截图内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网！

Python 编程

上一条：python代码如何注释下一条：Python模拟登入的N种方式(建议收藏)

相关文章：

1. 三个不常见的 HTML5 实用新特性简介2. 详解浏览器的缓存机制3. CSS3中Transition属性详解以及示例分享4. 一款功能强大的markdown编辑器tui.editor使用示例详解5. 解析原生JS getComputedStyle6. HTML DOM setInterval和clearInterval方法案例详解7. UDDI FAQs8. XML入门的常见问题(一)9. 手机屏幕尺寸测试——手机的实际显示页面的宽度10. 小技巧处理div内容溢出

排行榜

					
					python 使用uiautomator2连接手机设备的实现
CSS3中Transition属性详解以及示例分享
Android实现截屏功能
Docker 网络模式及配置方式
创建Android守护进程实例(底层服务)
Java Parallel Processing Framework 0.15.0 发布
Python模拟登入的N种方式(建议收藏)
一款功能强大的markdown编辑器tui.editor使用示例详解
详解JavaScript 异步编程
vue-openlayers实现地图坐标弹框效果
vue 插槽简介及使用示例
				

热门标签