文章详情页

python使用requests库爬取拉勾网招聘信息的实现

浏览：5日期：2022-07-04 16:57:42

按F12打开开发者工具抓包，可以定位到招聘信息的接口

在请求中可以获取到接口的url和formdata，表单中pn为请求的页数，kd为关请求职位的关键字

python使用requests库爬取拉勾网招聘信息的实现

使用python构建post请求

data = { ’first’: ’true’, ’pn’: ’1’, ’kd’: ’python’}headers = { ’referer’: ’https://www.lagou.com/jobs/list_python/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=’, ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}res = requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false', data=data,headers=headers)print(res.text)

发现没有从接口获取到数据

python使用requests库爬取拉勾网招聘信息的实现

换了个网络后接口还是会返回操作频繁的错误信息，仔细检查后发现这个接口需要一个动态的cookies不然会一值返回错误频繁

data = { ’first’: ’true’, ’pn’: ’1’, ’kd’: ’python’}#头部中必须有user-agent和referer不然不会返回cookiesheaders = { ’referer’: ’https://www.lagou.com/jobs/list_python/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=’, ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}#通过访问主页获取cookiesr1= requests.get('https://www.lagou.com/jobs/list_python/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=’',headers=headers)#再post请求中传入cookiesr2 = requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false', data=data,headers=headers, cookies=r2.cookies)print(r2.text)

注意！每请求十次接口cookies也会刷新一次,下面贴上完整爬虫代码

import jsonimport loggingimport requests#获取cookiedef getCookie(): res = requests.get('https://www.lagou.com/jobs/list_python/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=',headers=headers) return res.cookies#获取json数据def getPage(i, cookies, kw): data = { ’first’: ’true’, ’pn’: i, ’kd’: kw } res = requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false', data=data, headers=headers, cookies=cookies) return json.loads(res.text)#合并列表def reduceList(l): text = '' for i in l: text += i + ' ' return text.strip()#提取字段并保存到文件中def saveInCsv(f, data): js = data['content']['positionResult']['result'] for node in js: # 对空值进行处理 district = node['district'] if district != None: district = '-' + district else: district = '' f.write( node['positionName'] + '·' + node['city'] + district + '·' + node['salary'] + '·' + node['workYear'] + '·' + node['education'] + '·' + reduceList(node['skillLables']) + '·' + node['companyShortName'] + '·' + node['companySize'] + '·' + node['positionAdvantage'] + 'n')if __name__ == ’__main__’: #定义头部 headers = { ’referer’: ’https://www.lagou.com/jobs/list_python/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=’, ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’ } #初始化cookie cookies = getCookie() with open('file.csv', 'w', encoding='utf-8') as f: for i in range(1, 31): #每十个请求重新获取cookie if (i % 10 == 0):cookies = getCookie() #解析字段并存储 data = getPage(i, cookies, 'python') saveInCsv(f, data)

到此这篇关于python使用requests库爬取拉勾网招聘信息的实现的文章就介绍到这了,更多相关python requests爬取拉勾网内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网！

Python 编程

上一条：Python paramiko使用方法代码汇总下一条：Python getsizeof()和getsize()区分详解

相关文章：

1. 解决Android Studio 格式化 Format代码快捷键问题2. JavaEE SpringMyBatis是什么? 它和Hibernate的区别及如何配置MyBatis3. SpringBoot+TestNG单元测试的实现4. Python使用urlretrieve实现直接远程下载图片的示例代码5. 完美解决vue 中多个echarts图表自适应的问题6. vue实现web在线聊天功能7. Springboot 全局日期格式化处理的实现8. 在Chrome DevTools中调试JavaScript的实现9. php解决注册并发问题并提高QPS10. Java使用Tesseract-Ocr识别数字

排行榜

					
					IntelliJ IDEA安装插件的方法步骤
完美解决vue 中多个echarts图表自适应的问题
Springboot 全局日期格式化处理的实现
在Chrome DevTools中调试JavaScript的实现
Java使用Tesseract-Ocr识别数字
vue实现web在线聊天功能
JS原生2048小游戏源码分享(全网最新)
Python使用urlretrieve实现直接远程下载图片的示例代码
php解决注册并发问题并提高QPS
SpringBoot+TestNG单元测试的实现
JavaEE SpringMyBatis是什么? 它和Hibernate的区别及如何配置MyBatis
				

热门标签