文章详情页

Python lxml库的简单介绍及基本使用讲解

浏览：3日期：2022-07-01 14:43:44

1.lxml库介绍

lxml是XML和HTML的解析器，其主要功能是解析和提取XML和HTML中的数据；lxml和正则一样，也是用C语言实现的，是一款高性能的python HTML、XML解析器，也可以利用XPath语法，来定位特定的元素及节点信息

HTML是超文本标记语言，主要用于显示数据，他的焦点是数据的外观XML是可扩展标记语言，主要用于传输和存储数据，他的焦点是数据的内容

2.安装lxml方法

方法1:在cmd运行窗口中输入:pip install lxml

Python lxml库的简单介绍及基本使用讲解

方法2：在Pycharm中下载File?Setting?Project?Project Interpreter?点击右上角的“+”—第1步

Python lxml库的简单介绍及基本使用讲解

第2步

Python lxml库的简单介绍及基本使用讲解

第3步

Python lxml库的简单介绍及基本使用讲解

方法3：进入这个网站进行下载：https://lxml.de/index.html

Python lxml库的简单介绍及基本使用讲解

3.基本使用

我们可以利用他解析HTML代码，并且在解析HTML代码的时候，如果HTML代码不规范或者不完整，lxml解析器会自动修复或补全代码，从而提高效率

实例1：解析HTML代码块

#提取html中的数据from lxml import etreetext = ’’’<html> <div class='clearfix'> <div class='nav_com'> <ul> <li class='active'><a href='https://www.haobala.com/' rel='external nofollow' >推荐</a></li> <li class=''><a href='https://www.haobala.com/nav/python' rel='external nofollow' >Python</a></li> <li class=''><a href='https://www.haobala.com/nav/java' rel='external nofollow' >Java</a></li> <li class=''><a href='https://www.haobala.com/nav/web' rel='external nofollow' >前端</a></li> <li class=''><a href='https://www.haobala.com/nav/arch' rel='external nofollow' >架构</a></li> <li class=''><a href='https://www.haobala.com/nav/db' rel='external nofollow' >数据库</a></li> <li class=''><a href='https://www.haobala.com/nav/5g' rel='external nofollow' >5G</a></li> <li class=''><a href='https://www.haobala.com/nav/game' rel='external nofollow' >游戏开发</a></li> <li class=''><a href='https://www.haobala.com/nav/mobile' rel='external nofollow' >移动开发</a></li> <li class=''><a href='https://www.haobala.com/nav/ops' rel='external nofollow' >运维</a></li> </ul> </div> </div></html>></html>>’’’#将字符串解析为html文档html = etree.HTML(text)#print(html)#将字符串序列化为htmlresult = etree.tostring(html).decode(’utf-8’)print(result)

实例2：读取并解析html文件

#将html文件进行解析from lxml import etree#将html文件进行读取html = etree.parse(’data.html’)#将html内容序列化result = etree.tostring(html).decode(’utf-8’)print(result)

到此这篇关于Python lxml库的简单介绍及基本使用讲解的文章就介绍到这了,更多相关Python lxml库使用内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网！

Python 编程

上一条：去除python中的字符串空格的简单方法下一条：Python中过滤字符串列表的方法

相关文章：

1. JavaScript实现网页版五子棋游戏2. Java14发布了,再也不怕NullPointerException了3. IntelliJ IDEA 2020.2正式发布,两点多多总能助你提效4. 快速解决ajax返回值给外部函数的问题5. JSP数据交互实现过程解析6. 详谈ajax返回数据成功却进入error的方法7. Ajax提交post请求案例分析8. 如何通过vscode运行调试javascript代码9. html清除浮动的6种方法示例10. IntelliJ IDEA 统一设置编码为utf-8编码的实现

排行榜

					
					Java14发布了,再也不怕NullPointerException了
Django中如何使用Channels功能
IntelliJ IDEA 统一设置编码为utf-8编码的实现
Docker究竟是什么 为什么这么流行 它的优点和缺陷有哪些？
IntelliJ IDEA设置编码格式的方法
如何通过vscode运行调试javascript代码
VMware中如何安装Ubuntu
JSP数据交互实现过程解析
详谈ajax返回数据成功 却进入error的方法
快速解决ajax返回值给外部函数的问题
Ajax提交post请求案例分析
				

热门标签