编程语言
首页 > 编程语言> > 如何使用python中的elementtree处理xml文件中格式不正确的字符

如何使用python中的elementtree处理xml文件中格式不正确的字符

作者:互联网

我正在使用ElementTree.parse函数解析用utf-16编码的xml文件.
当文件包含一些格式不正确的字符(例如♀,♂等)时,程序将崩溃.并且发生错误“ xml.parsers.expat.ExpatError:格式不正确(无效的令牌)”.
如何避免此错误并解决此问题?我怎么能忽略这些格式不正确的字符?谢谢!下面是我的代码:

tree = ElementTree()
root = tree.parse(xml_file)

xml_file是以UTF-16格式编码的文件.
该错误将指出格式不正确的字符的行和列号.

解决方法:

由于xml.parsers.expat.ParserCreate仅支持四种编码,因此我将全部尝试.这些编码是:
UTF-8,UTF-16,ISO-8859-1(Latin1)和ASCII.

您现在可以使用以下编码运行ElementTree.parse:

from xml.etree.ElementTree import ElementTree
from xml.parsers import expat
tree = ElementTree()
root = tree.parse(xml_file, parser=expat.ParserCreate('UTF-8') )
root = tree.parse(xml_file, parser=expat.ParserCreate('UTF-16') )
root = tree.parse(xml_file, parser=expat.ParserCreate('ISO-8859-1') )
root = tree.parse(xml_file, parser=expat.ParserCreate('ASCII') )

标签:elementtree,xml,python,xml-parsing
来源: https://codeday.me/bug/20191101/1981389.html