文章详情页

python-xpath获取html文档的部分内容

浏览：2日期：2022-08-03 15:56:25

有些时候我在们需要的用正则提取出html中某一个部分的文字内容，如图:

获取dd部分的html文档，我们要通过它的一个属性去确定他的位置才可以拿到他这个部分我们可以看到他的这个属性class=’row clearfix ’，然后用xpath去获取到这部分:

name = tree.xpath('//dd[@class=’row clearfix ’]')from lxml import htmlimport requestsurl = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')print(name)

如果直接打印他是不能够出来的，

python-xpath获取html文档的部分内容

我们需要对Element进行处理，用到name1 = html.tostring(name[0])，代码如下:

from lxml import htmlimport requestsurl = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')name1 = html.tostring(name[0])print(name1)

打印截图:

python-xpath获取html文档的部分内容

但是大家可以看到里面的等内容并不是中文，原因是我们使用tostring方法输出的是修正后的HTML代码，但是结果是bytes类型，在python中bytes类型是不可以进行编码的，需要转换成字符串，使用代码name1.decode()，此时我们将bytes类型转换为str（字符串）类型。

那么此时我们关键是如何将$#26080;此类的符号转换成汉字！！！那么首先要搞清楚这是什么编码？这类符号是HTML、XML 等 SGML 类语言的转义序列。它们不是”编码“，也就是说我们不能使用utf-8、gbk等编码进行处理，需要使用HTMLParse进行处理，完整代码如下：

from lxml import htmlimport requestsfrom html.parser import HTMLParser #导入html解析库url = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')name1 = html.tostring(name[0])name2 = HTMLParser().unescape(name1.decode())print(name2)

此时运行结果如下：

python-xpath获取html文档的部分内容

那么此时就已经大功告成了！！！

以上这篇python-xpath获取html文档的部分内容就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持好吧啦网。

Python 编程

上一条：Python修改列表值问题解决方案下一条：关于python中的xpath解析定位

相关文章：

1. React实现一个倒计时hook组件实战示例2. XML解析错误：未组织好的解决办法3. ASP基础入门第三篇(ASP脚本基础)4. CSS3实现动态翻牌效果仿百度贴吧3D翻牌一次动画特效5. CSS3使用过度动画和缓动效果案例讲解6. 三个不常见的 HTML5 实用新特性简介7. XHTML 1.0：标记新的开端8. 使用css实现全兼容tooltip提示框9. html清除浮动的6种方法示例10. Xml简介_动力节点Java学院整理

排行榜

					
					源码解读Spring-Integration执行过程
springboot+vue实现登录功能
IntelliJ IDEA创建web项目的方法
解决vue axios跨域 Request Method: OPTIONS问题(预检请求)
Python实现图片指定位置加图片水印（附Pyinstaller打包exe)
XML解析错误：未组织好 的解决办法
python小白切忌乱用表达式
Nginx+php配置文件及原理解析
vue路由切换时取消之前的所有请求操作
详解JavaScript原型与原型链
在JSP中使用formatNumber控制要显示的小数位数方法
				

热门标签