文章详情页

python - 怎么查看网址做的是什么反爬虫

浏览：91日期：2022-06-28 16:54:52

问题描述

网址：https://www.nvshens.com/g/22377/，该网站直接游览器打开然后，点击图片右键是可以下载的，然后我爬虫直接请求下来的图片就已经被屏蔽了，然后我改了headers跟设置了ip代理，还是没用。但抓包来看也不是动态加载的数据呀！！！求解答= =

问题解答

回答1：

妹子挺漂亮的哈。右键确实能打开，但是刷新一下就成盗链图片了。一般防盗链，服务器端是会检查请求头里面的Referer字段，这就是为什么刷新后就不是原图的原因（刷新后Referer变了）。 python - 怎么查看网址做的是什么反爬虫

img_url = 'https://t1.onvshen.com:85/gallery/21501/22377/s/003.jpg'r = requests.get(img_url, headers={’Referer’:'https://www.nvshens.com/g/22377/'}).contentwith open('00.jpg',’wb’) as f: f.write(r)回答2：

获取图片时抓包看漏什么参数没。

回答3：

光顾着看网站内容，差点忘记了正式了。你可以把你请求的信息全部按照

python - 怎么查看网址做的是什么反爬虫

然后在试试

回答4：

Referer 照这网站的设计应该是各别的页面会比较符合假装是人的行为，而并不是用单一的Referer以下是完整能跑的代码，抓18页所有的图片

# Putting all togetherdef url_guess_src_large (u): return ('https://www.nvshens.com/img.html?img=' + ’/’.join(u.split(’/s/’)))# 下载函数def get_img_using_requests(url, fn ): import shutil headers [’Referer’] = url_guess_src_large(url) #'https://www.nvshens.com/g/22377/' print (headers) response = requests.get(url, headers = headers, stream=True) with open(fn, ’wb’) as out_file:shutil.copyfileobj(response.raw, out_file) del responseimport requests# 用xpath擷取內容from lxml import etreeurl_ = ’https://www.nvshens.com/g/22377/{p}.html’ headers = { 'Connection' : 'close', # one way to cover tracks 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2900.1 Iron Safari/537.36}'}for i in range(1,18+1): url = url_.format(p=i) r = requests.get(url, headers=headers) html = requests.get(url,headers=headers).content.decode(’utf-8’) selector = etree.HTML(html) xpaths = ’//*[@id='hgallery']/img/@src’ content = [x for x in selector.xpath(item)] urls_2get = [url_guess_src_large(x) for x in content] filenames = [os.path.split(x)[0].split(’/gallery/’)[1].replace('/','_') + '_' + os.path.split(x)[1] for x in urls_2get] for i, x in enumerate(content):get_img_using_requests (content[i], filenames[i])

Python 编程

上一条：python - Django怎么获取数据库的值，并放到一起输出下一条：python - django中普通用户如何利用admin修改自己的信息？

相关文章：

1. 一个走错路的23岁傻小子的提问2. angular.js - angularjs 使用鼠标悬停时，标签一直闪3. c++ - win764位环境下，我用GCC为什么指针占8个字节，而long是4个字节？4. html5 - HTML代码中的文字乱码是怎么回事？5. java - 安卓电视盒子取得了root权限但是不能安装第三方应用，请问该怎么办？6. javascript - SuperSlide.js火狐不兼容怎么回事呢7. android - 安卓activity无法填充屏幕8. python 计算两个时间相差的分钟数，超过一天时计算不对9. python - django 里自定义的 login 方法，如何使用 login_required()10. node.js - 函数getByName()中如何使得co执行完后才return

排行榜

					
					angular.js - angularjs 使用鼠标悬停时，标签一直闪
c++ - win764位环境下，我用GCC为什么指针占8个字节，而long是4个字节？
html5 - HTML代码中的文字乱码是怎么回事？
一个走错路的23岁傻小子的提问
android - 离线地图的这种列表该怎么实现？
node.js - 函数getByName()中如何使得co执行完后才return
python - django 里自定义的  login 方法，如何使用 login_required()
java - 为什么hibernate查询表集报错?
javascript - SuperSlide.js火狐不兼容怎么回事呢
android spinner改变下拉弹出的位置
python 计算两个时间相差的分钟数，超过一天时计算不对
				

热门标签