龙空技术网

在字符串中处理 html 和 xml

申浩黄粱 63

前言:

现时你们对“xml特殊字符处理方式”大体比较看重,看官们都需要分析一些“xml特殊字符处理方式”的相关内容。那么小编在网络上收集了一些有关“xml特殊字符处理方式””的相关资讯,希望你们能喜欢,朋友们一起来了解一下吧!

学习《Python Cookbook》第三版

将 HTML 或者 XML 实体如 &entity; 或 &#code; 替换为对应的文本。再者,你需要转换文本中特定的字符 (比如<, >, 或 &)。

如果你想替换文本字符串中的 ‘<’ 或者 ‘>’ ,使用 html.escape() 函数可以很容易的完成。比如:

import htmlmy_str = 'Elements are written as "<tag>text</tag>".'print(my_str)	# Elements are written as "<tag>text</tag>".print(html.escape(my_str))	# Elements are written as "<tag>text</tag>".print(html.escape(my_str, quote=False))	# Elements are written as "<tag>text</tag>".

对于escape()方法的官方解释:

html.escape(s, quote=True)

Convert the characters &, < and > in string s to HTML-safe sequences. Use this if you need to display text that might contain such characters in HTML. If the optional flag quote is true, the characters (") and (') are also translated; this helps for inclusion in an HTML attribute value delimited by quotes, as in <a href="...">.

将字符串s中的字符&,<和>转换为HTML安全序列。 如果您需要在HTML中显示可能包含此类字符的文本,请使用此选项。 如果可选的标记quote为true,则还会翻译字符(“)和(');这有助于包含在用引号分隔的HTML属性值中,如<a href="...">中所示。

如果你正在处理的是 ASCII 文本,并且想将非 ASCII 文本对应的编码实体嵌入进去,可以给某些 I/O 函数传递参数 errors='xmlcharrefreplace' 来达到这个目。比如:

my_str = 'Spicy Jalapeño'print(my_str.encode('ascii', errors='xmlcharrefreplace'))	# b'Spicy Jalapeño'

其中,xmlcharrefreplace的作用是:将非ascii字符替换为xml合适字符引用

字符引用通过其通用字符集/ Unicode代码点引用字符,并使用以下格式:

&#nnnn; 或者 &#xhhhh;

上边的例子非ascii码字符ñ,被替换为ñ;

更多的XML字符引用,可以查看WIKI网址:

为了替换文本中的编码实体,你需要使用另外一种方法。如果你正在处理 HTML或者 XML 文本,试着先使用一个合适的 HTML 或者 XML 解析器。通常情况下,这些工具会自动替换这些编码值,你无需担心。

有时候,如果你接收到了一些含有编码值的原始文本,需要手动去做替换,通常你只需要使用 HTML 或者 XML 解析器的一些相关工具函数/方法即可。比如:

my_str_special = 'This is a special character "<È>"'print(html.unescape(my_str_special))	# This is a special character "<È>"from xml.sax.saxutils import unescapemy_str_special_1 = 'The prompt is >>>'print(unescape(my_str_special_1))	# The prompt is >>>

在生成 HTML 或者 XML 文本的时候,如果正确的转换特殊标记字符是一个很容易被忽视的细节。特别是当你使用 print() 函数或者其他字符串格式化来产生输出的时候。使用像 html.escape() 的工具函数可以很容易的解决这类问题。

如果你想以其他方式处理文本,还有一些其他的工具函数比如xml.sax.saxutils.unescapge() 可以帮助你。然而,你应该先调研清楚怎样使用一个合适的解析器。比如,如果你在处理 HTML 或 XML 文本,使用某个解析模块比如html.parse 或 xml.etree.ElementTree 已经帮你自动处理了相关的替换细节。

标签: #xml特殊字符处理方式