文章详情页

Python在字符串中处理html和xml的方法

【字号：大中小】日期：2022-07-15 16:06:24浏览：16作者：猪猪

问题

你想将HTML或者XML实体如 &entity; 或 &#code; 替换为对应的文本。再者，你需要转换文本中特定的字符(比如<, >, 或 &)。

解决方案

如果你想替换文本字符串中的 ‘<’ 或者 ‘>’ ，使用 html.escape() 函数可以很容易的完成。比如：

>>> s = ’Elements are written as '<tag>text</tag>'.’>>> import html>>> print(s)Elements are written as '<tag>text</tag>'.>>> print(html.escape(s))Elements are written as "<tag>text</tag>".>>> # Disable escaping of quotes>>> print(html.escape(s, quote=False))Elements are written as '<tag>text</tag>'.>>>

如果你正在处理的是ASCII文本，并且想将非ASCII文本对应的编码实体嵌入进去，可以给某些I/O函数传递参数 errors=’xmlcharrefreplace’ 来达到这个目。比如：

>>> s = ’Spicy Jalapeño’>>> s.encode(’ascii’, errors=’xmlcharrefreplace’)b’Spicy Jalapeño’>>>

为了替换文本中的编码实体，你需要使用另外一种方法。如果你正在处理HTML或者XML文本，试着先使用一个合适的HTML或者XML解析器。通常情况下，这些工具会自动替换这些编码值，你无需担心。

有时候，如果你接收到了一些含有编码值的原始文本，需要手动去做替换，通常你只需要使用HTML或者XML解析器的一些相关工具函数/方法即可。比如：

>>> s = ’Spicy "Jalapeño&quot.’>>> from html.parser import HTMLParser>>> p = HTMLParser()>>> p.unescape(s)’Spicy 'Jalapeño'.’>>>>>> t = ’The prompt is >>>’>>> from xml.sax.saxutils import unescape>>> unescape(t)’The prompt is >>>’>>>

讨论

在生成HTML或者XML文本的时候，如果正确的转换特殊标记字符是一个很容易被忽视的细节。特别是当你使用 print() 函数或者其他字符串格式化来产生输出的时候。使用像 html.escape() 的工具函数可以很容易的解决这类问题。

如果你想以其他方式处理文本，还有一些其他的工具函数比如 xml.sax.saxutils.unescapge() 可以帮助你。然而，你应该先调研清楚怎样使用一个合适的解析器。比如，如果你在处理HTML或XML文本，使用某个解析模块比如 html.parse 或 xml.etree.ElementTree 已经帮你自动处理了相关的替换细节。

以上就是Python在字符串中处理html和xml的方法的详细内容，更多关于Python在字符串中处理html和xml的资料请关注好吧啦网其它相关文章！

Python 编程

上一条：Python如何将字符串转换为日期下一条：C语言字符串转换为Python字符串的方法

相关文章：

1. Jsp中request的3个基础实践2. jquery实现div层随页面滚动而滚动（固定在某一位置）3. springboot log4j2不能打印框架错误日志的解决方案4. Django模板报TemplateDoesNotExist异常(亲测可行)5. 完美解决idea moudle没有蓝色的小方块的问题6. Js Snowflake(雪花算法)生成随机ID的实现方法7. JDBC核心技术详解8. spring 整合kafka监听消费的配置过程9. 手把手带你了解Python数据分析--matplotlib10. .NET 6 跨服务器联表查询操作MySql、Oracle、SqlServer等相互联表

排行榜

					
					springboot log4j2不能打印框架错误日志的解决方案
完美解决idea moudle没有蓝色的小方块的问题
Js Snowflake(雪花算法)生成随机ID的实现方法
JDBC核心技术详解
jquery实现div层随页面滚动而滚动（固定在某一位置）
spring 整合kafka监听消费的配置过程
Jsp中request的3个基础实践
Django模板报TemplateDoesNotExist异常(亲测可行)
手把手带你了解Python数据分析--matplotlib
PHP5中的访问控制！public ,private,protected
IntelliJ IDEA Java项目手动添加依赖 jar 包的方法(图解)
				

热门标签