文章详情页

Python使用ElementTree美化XML格式的操作

浏览：17日期：2022-08-03 14:48:01

Python中使用ElementTree可以很方便的处理XML，但是产生的XML文件内容会合并在一行，难以看清楚。

如下格式：

<root><aa>aatext<cc>cctext</cc></aa><bb>bbtext<dd>ddtext<ee>eetext</ee></dd></bb></root>

使用minidom模块中的toprettyxml和writexml方法都有参数可以优化XML，但是有两个问题：

a. 如果解析的XML已经是美化过的，那么执行该方法会多出很多空行

b. 产生的结果会将text也独立一行，如下：

<root> <aa> aatext </aa> <bb> bbtext </bb> </root>

而我想产生如下结果：

<root> <aa>aatext</aa> <bb>bbtext</bb> </root>

于是只能自己写一个美化XML的方法。

我们首先研究一下ElementTree模块中的Element类，使用getroot方法返回的便是Element类。

该类中有四个属性tag、attrib、text与tail, 对应在XML中如下图所示：

Python使用ElementTree美化XML格式的操作

整个XML就是一个Element，里面嵌套了很多子Element。

Element可以使用for循环迭代。

通过在text和tail中增加换行和制表符，就可以实现美化XML的目的。

美化代码如下：

def prettyXml(element, indent, newline, level = 0): # elemnt为传进来的Elment类，参数indent用于缩进，newline用于换行 if element: # 判断element是否有子元素 if element.text == None or element.text.isspace(): # 如果element的text没有内容 element.text = newline + indent * (level + 1) else: element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * (level + 1) #else: # 此处两行如果把注释去掉，Element的text也会另起一行 #element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * level temp = list(element) # 将elemnt转成list for subelement in temp: if temp.index(subelement) < (len(temp) - 1): # 如果不是list的最后一个元素，说明下一个行是同级别元素的起始，缩进应一致 subelement.tail = newline + indent * (level + 1) else: # 如果是list的最后一个元素，说明下一行是母元素的结束，缩进应该少一个 subelement.tail = newline + indent * level prettyXml(subelement, indent, newline, level = level + 1) # 对子元素进行递归操作 from xml.etree import ElementTree #导入ElementTree模块 tree = ElementTree.parse(’test.xml’) #解析test.xml这个文件，该文件内容如上文 root = tree.getroot() #得到根元素，Element类 prettyXml(root, ’t’, ’n’) #执行美化方法 ElementTree.dump(root) #显示出美化后的XML内容

输出结果如下：

<root> <aa> aatext <cc>cctext</cc> </aa> <bb> bbtext <dd> ddtext <ee>eetext</ee> </dd> </bb> </root>

残留问题点：

windows下的换行符是'rn'，只需将prettyXml方法的第三个参数改为'rn'，使用记事本打开生成的XML大部分OK。

但是XML说明与根元素开始符之间不知如何插入'rn'.

Python使用ElementTree美化XML格式的操作

补充知识：python-xml 模块-代码生成xml 文档

一、XML 模块

什么是xml：可扩展的标记语言，标记翻译为标签，用标签来组织数据的语言，也是一种语言可以用来自定义文档结构。相比json 使用场景更加广泛，但是语法格式相比json 复杂很多

什么时候使用json：前后台交互数据时使用json

什么时候使用xml：当需要自定义文档结构时使用xml，比如java中经常用xml来作为配置文件，常见操作就是通过程序去读取配置信息，而修改增加删除，一般是交给用户来手动完成

标签的叫发：node(节点)、elment(元素)、tag(标签)

需求从conuntrys中获取所有的国家名称

==========================>countrys<data> <country name='Liechtenstein'> <rank updated='yes'>2</rank> <year>2009</year> <gdppc>141100</gdppc> <neighbor direction='E' name='Austria' /> <neighbor direction='W' name='Switzerland' /> </country> <country name='Singapore'> <rank updated='yes'>5</rank> <year>2012</year> <gdppc>59900</gdppc> <neighbor direction='N' name='Malaysia' /> </country> <country name='Panama'> <rank updated='yes'>69</rank> <year>2012</year> <gdppc>13600</gdppc> <neighbor direction='W' name='Costa Rica' /> <neighbor direction='E' name='Colombia' /> </country></data># 取别名可以用于简化书写import xml.etree.ElementTree as ETtree = ET.parse(’countrys’)#获取根标签#第一种获取标签的方式#全文查找iter() # 获取迭代器如果不指定参数则迭代器迭代的是所有标签print(root.iter())# 获取迭代器如果指定参数则迭代器迭代的是所有名称匹配的标签for e in root.iter('rank'): print(e) #第二种获取标签的方式#在当前标签下(所有子级标签)寻找第一个名称匹配的标签print(root.find('rank')) #第一个名称不匹配所以返回None#第三种获取标签的方式#在当前标签下(所有子级标签)寻找所有名称匹配的标签print(root.findall('rank')) #[]

练习：找到新加坡中year 这个标签

#print(e.tag) #标签名称#print(e.attrib) #属性字典类型#print(e.text) #文本内容import xml.etree.ElementTree as ETtree = ET.parse('countrys')# 获取根标签root = tree.getroot()for e in root.iter('country'): if e.attrib['name'] == 'Singapore': y = e.find('year') print(y.text) #2012

在程序中修改文档内容：把所有year标签的文本加1

import xml.etree.ElementTree as ETtree = ET.parse('countrys')root = tree.getroot()for e in root.iter('year'): e.text = str(int(e.text) + 1) #做完修改后要将修改后的内容写入文件tree.write(’countrys’)

把新加坡国家删除：

import xml.etree.ElementTree as ETtree = ET.parse('countrys')root = tree.getroot()for e in root.findall('country'): print(e) if e.attrib['name'] == 'Singapore': #删除时要通过被删除的父级标签来删除 root.remove(e)tree.write(’countrys’)

用程序将中国信息写入文档中：

import xml.etree.ElementTree as ETtree = ET.parse('countrys')root = tree.getroot()#添加时也需要将要添加的数据做成一个Elementc = ET.Element('country',{'name':'china'})# 在国家下有一堆子标签ranke = ET.Element('ranke',{'updated':'yes'})c.append(ranke)year = ET.Element('year')year.text = '2018'c.append(year)#添加到root标签中root.append(c)tree.write('countrys')

总结：一般不会通过程序去修改删除和添加

什么时候应该使用XML格式：

当你需要自定文档结构时(XML最强大的地方就是结构)

前后台交互不应该使用，前后台交互应该使用JSON格式

代码生成XML文档

import xml.etree.ElementTree as ET# 创建根标签root = ET.Element('root')root.text = '这是一个XML文档!'c = ET.Element('country',{'name':'china'})root.append(c)tree = ET.ElementTree(root)# 参数: 文件名称编码方式是否需要文档声明tree.write('new.xml',encoding='utf-8',xml_declaration=True)=========================>new.xml 内容为<?xml version=’1.0’ encoding=’utf-8’?><root>这是一个XML文档!<country name='china' /></root>

以上这篇Python使用ElementTree美化XML格式的操作就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持好吧啦网。

Python 编程

上一条：python GUI库图形界面开发之PyQt5表单布局控件QFormLayout详细使用方法与实例下一条：Python使用requests xpath 并开启多线程爬取西刺代理ip实例

相关文章：

1. HTML <!DOCTYPE> 标签2. 轻松学习XML教程3. WMLScript的语法基础4. ASP中解决“对象关闭时,不允许操作。”的诡异问题……5. css进阶学习选择符6. asp批量添加修改删除操作示例代码7. asp知识整理笔记4（问答模式）8. 详解CSS伪元素的妙用单标签之美9. XML入门精解之结构与语法10. html清除浮动的6种方法示例

排行榜

					
					Docker容器如何更新打包并上传到阿里云
IDEA设置编码背景色的方法
IntelliJ IDEA 统一设置编码为utf-8编码的实现
php相对路径转化成绝对路径
python 实现"神经衰弱"翻牌游戏
spring+mybatis实现图书管理系统
phpstudy apache开启ssi使用详解
详解CSS伪元素的妙用单标签之美
ASP.NET Core按用户等级授权的方法
asp知识整理笔记4（问答模式）
详谈ajax返回数据成功 却进入error的方法
				

热门标签