文章详情页

Python爬虫JSON及JSONPath运行原理详解

浏览：3日期：2022-07-22 18:46:12

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。

JsonPath 是一种信息抽取类库，是从JSON文档中抽取指定信息的工具，提供多种语言实现版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 对于 JSON 来说，相当于 XPATH 对于 XML。

JsonPath与XPath语法对比：

Json结构清晰，可读性高，复杂度低，非常容易匹配，下表中对应了XPath的用法。

Python爬虫JSON及JSONPath运行原理详解

相关推荐：《Python相关教程》

利用JSONPath爬取拉勾网上所有的城市

#!/usr/bin/env python# -*- coding:utf-8 -*-import urllib2# json解析库，对应到lxmlimport json# json的解析语法，对应到xpathimport jsonpathurl = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json'headers = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36’}request = urllib2.Request(url, headers = headers)response = urllib2.urlopen(request)# 取出json文件里的内容，返回的格式是字符串html = response.read()# 把json形式的字符串转换成python形式的Unicode字符串unicodestr = json.loads(html)# Python形式的列表city_list = jsonpath.jsonpath(unicodestr, '$..name')#for item in city_list:# print item# dumps()默认中文为ascii编码格式，ensure_ascii默认为Ture# 禁用ascii编码格式，返回的Unicode字符串，方便使用array = json.dumps(city_list, ensure_ascii=False)#json.dumps(city_list)#array = json.dumps(city_list)with open('lagoucity.json', 'w') as f: f.write(array.encode('utf-8'))

结果：

Python爬虫JSON及JSONPath运行原理详解

糗事百科爬取

利用XPATH的模糊查询

获取每个帖子里的内容

保存到 json 文件内

#!/usr/bin/env python# -*- coding:utf-8 -*-import urllib2import jsonfrom lxml import etreeurl = 'http://www.qiushibaike.com/8hr/page/2/'headers = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36’}request = urllib2.Request(url, headers = headers)html = urllib2.urlopen(request).read()# 响应返回的是字符串，解析为HTML DOM模式 text = etree.HTML(html)text = etree.HTML(html)# 返回所有段子的结点位置，contains()模糊查询方法，第一个参数是要匹配的标签，第二个参数是标签名部分内容node_list = text.xpath(’//div[contains(@id, 'qiushi_tag')]’)items ={}for node in node_list: # xpath返回的列表，这个列表就这一个参数，用索引方式取出来，用户名 username = node.xpath(’./div/a/@title’)[0] # 取出标签下的内容,段子内容 content = node.xpath(’.//div[@class='content']/span’)[0].text # 取出标签里包含的内容，点赞 zan = node.xpath(’.//i’)[0].text # 评论 comments = node.xpath(’.//i’)[1].text items = { 'username' : username, 'content' : content, 'zan' : zan, 'comments' : comments } with open('qiushi.json', 'a') as f: f.write(json.dumps(items, ensure_ascii=False).encode('utf-8') + '')

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持好吧啦网。

Python 编程

上一条：解决python图像处理图像赋值后变为白色的问题下一条：python 实现图像快速替换某种颜色

相关文章：

1. CSS3中Transition属性详解以及示例分享2. CSS3实现动态翻牌效果仿百度贴吧3D翻牌一次动画特效3. 三个不常见的 HTML5 实用新特性简介4. asp画中画广告插入在每篇文章中的实现方法5. 怎样才能用js生成xmldom对象，并且在firefox中也实现xml数据岛？6. XML入门精解之结构与语法7. CSS hack用法案例详解8. WMLScript的语法基础9. ASP 信息提示函数并作返回或者转向10. css代码优化的12个技巧

排行榜

					
					Ajax引擎 ajax请求步骤详细代码
Django与数据库交互的实现
Django如何实现防止XSS攻击
Python基于gevent实现文件字符串查找器
使用本机IIS Express开发Asp.Net Core应用图文教程
asp画中画广告插入在每篇文章中的实现方法
CSS3实现动态翻牌效果 仿百度贴吧3D翻牌一次动画特效
CSS3中Transition属性详解以及示例分享
PHP数据库缓存扩展Memcache简介、安装及相关函数大全
详解用python实现爬取CSDN热门评论URL并存入redis
详解JS中的reduce fold unfold用法
				

热门标签