编程语言
首页 > 编程语言> > 在Python中检查unicode字符串是否为NFC的有效方法?

在Python中检查unicode字符串是否为NFC的有效方法?

作者:互联网

我想检查字符串是否已经是NFC格式.目前我这样做:

unicodedata.normalize('NFC', s) == s

我这样做是为了大量的字符串,所以我想要高效.上述方法似乎很浪费.它转换为NFC,然后进行字符串比较.

有更有效的方法吗?我考虑过:

len(unicodedata.normalize('NFC', s)) == len(s)

这避免了字符串比较.但我不确定这是否总是正确的.如果NFC标准化始终改变非NFC字符串的长度,则此方法有效.这是一个有效的假设吗?

还有其他想法吗?

解决方法:

规范化不一定会改变字符串的长度.例如,’Ω'(U 2126)在NFC之后变为’Ω'(U 03A9).

Unicode数据库中有一个规范化“quick check” property来测试一个字符是否已经规范化,但遗憾的是Python的unicodedata模块没有公开它.但是,如果字符串已经规范化,unicodedata.normalize()会使用此属性来避免执行任何额外的工作 – 它只返回输入字符串.

要访问此属性,您需要自己从Unicode字符数据库中编译表,或者使用带有Python绑定的更广泛的Unicode库(如PyICU).

标签:python,unicode,normalization,python-unicode,unicode-normalization
来源: https://codeday.me/bug/20190609/1203366.html