python-unicode

首页 > TAG信息列表 > python-unicode

我怎么知道Python的unicode函数可以识别所有受支持的编码

Python具有Unicode内置函数,可将字节流转换为Unicode字符串. 我只是希望我可以查询系统上所有可用的编码.但是如何. 出现此问题的原因是：某些使用MAC OS X的人给我发送了一封内容编码为’iso-2022-cn’的电子邮件,我发现Windows 7上的Python 2.7无法识别该编码. >>> print unicode(

python-日文系统上的Jython’未知编码932

我已经用Jython 2.5.1编写了一个程序,该程序在Windows 7机器上可以正常工作,但是在日语机器上,它会抛出一个异常,说“未知编码’ms932’” 我发现codecs.java是唯一打印未知编码“ xyz”消息的模块该文件加载的aliases.py中确实包含 # cp932 codec '932' : 'cp932

python中非英语文件名的文件操作

我们许多人可能都面临这个问题,但是我对unicode的处理能力很差.这是问题所在：这是一个代码段,我试图执行.exe文件,并检查文件路径是否存在,但没有运气： #Python 2.6.7 filePath = 'C:\\Test\\' # Test folder haveing file BitComet_比特彗星_1_25.exe for (adir, dirs, files)

python-将数据帧的unicode数据转换为字符串

我从读取xls文件获得的数据帧遇到一些麻烦. 这样的数据帧上的每个数据都具有“ unicode”类型,对此我无能为力.我想将其更改为str值.另外,如果可能的话,我想知道这个事实的原因.我听到了有关“外部数据”的一些信息,而且我知道列和索引在这些名称之前都还显示了unicode的“ u”.我

兼容Python 2和3的字符串文件编写器

我创建了一个python Context Manager,它捕获所有输出sys.stdout(例如,使用print()),并将其写入文件. 问题是我无法同时使用python 2.7和3.6. 上下文管理器在内部使用 self.file_writer = open(self.log_file, 'w', encoding='utf8') 但是当我在Python 2.7中运行它时 print(u"a t

在python mkdtemp中处理unicode用户名

我被http://bugs.python.org/issue1681974咬了-从那里引用： mkdtemp fails on Windows if Windows user name has any non-ASCII characters, like ä or ö, in it. mkdtemp throws an encoding error. This seems to be because the default temp dir in Windows is "c:\docume

如何在文件中写俄文字符？

在我正在尝试输出俄语字符的控制台它给了我?????????????? 谁知道为什么？我尝试写入文件 – 在这种情况下相同的情况. 例如 f=open('tets.txt','w') f.write('some russian text') f.close 里面的文件是 – ?????????????????????? 要么 p="some russian text" print p ???????

Python默认字符串编码

何时,何地以及如何将Python隐式应用于字符串或进行隐式转码(转换)？那些“默认”(即暗示)编码是什么？例如,编码是什么： >字符串文字？ s = "Byte string with national characters" us = u"Unicode string with national characters" >在Unicode中进行类型转换时的字节字符串> data

UnicodeDecodeError,ascii处理python中的Snowball词干算法

我在将常规文件读入我已编写的程序时遇到一些麻烦.我目前遇到的问题是pdf基于某种突变的utf-8,其中包括一个BOM,它会在我的整个操作中引发一个问题.在我的应用程序中,我正在使用需要ascii输入的Snowball词干算法.有许多主题涉及到为utf-8解决错误,但是没有一个涉及将它们发送到Snow

python – 为什么我不能规范化这个随机的unicode字符串？

我需要在unicode字符串上评估levenshtein编辑距离,这意味着需要对包含相同内容的两个字符串进行规范化,以避免偏向编辑距离. 以下是我为测试生成随机unicode字符串的方法： def random_unicode(length=10): ru = lambda: unichr(random.randint(0, 0x10ffff)) return ''.joi

为什么在python中设置从具有不同字符编码的字符串列表中选择第一个元素？

为什么在Python中使用set()添加以设置具有不同字符编码(ASCII,Unicode)的第一个元素？例如 list1, list2 = [u'string' , 'string'], ['string', u'string'] set1, set2 = set(list1), set(list2) 当我打印set1和set2时,它们有不同的输出 print(set1) (set([u'string&#

python – UnicodeDecodeError：’ascii’编解码器无法解码位置0的字节0x96

我查看了类似问题的一些答案,但似乎无法看到我的代码中出现错误的位置.当我尝试运行celery时出现错误：celery -A runLogProject worker -loglevel = INFO.我注释掉了与Celery相关的所有代码,它也给出了同样的错误.我也尝试重新安装芹菜.我不知道还有什么可以尝试的.这是追溯： C:\Py

如何将Python 2 unicode()函数转换为正确的Python 3.x语法

我在我的Python IDE中启用了兼容性检查,现在我意识到继承的Python 2.7代码有很多对unicode()的调用,这些调用在Python 3.x中是不允许的. 我查看了Python的docs并没有发现提示如何升级：我现在不想切换到Python3,但可能在将来. 该代码包含大约500个unicode()调用如何进行？更新用户v

如何在python中构建常规词汇表？

我在纯文本UTF32.red.codes文件中有一个表情符号代码列表.文件的简单内容是 \U0001F600 \U0001F601 \U0001F602 \U0001F603 \U0001F604 \U0001F605 \U0001F606 \U0001F609 \U0001F60A \U0001F60B 基于question,我的想法是从文件的内容创建正则表达式以捕获表情符号.这是我最小的

python – Url开放编码

我有以下urllib和BeautifulSoup的代码： getSite = urllib.urlopen(pageName) # open current site getSitesoup = BeautifulSoup(getSite.read()) # reading the site content print getSitesoup.originalEncoding for value in getSitesoup.find_all('link'): # extra

在Python中检查unicode字符串是否为NFC的有效方法？

我想检查字符串是否已经是NFC格式.目前我这样做： unicodedata.normalize('NFC', s) == s 我这样做是为了大量的字符串,所以我想要高效.上述方法似乎很浪费.它转换为NFC,然后进行字符串比较. 有更有效的方法吗？我考虑过： len(unicodedata.normalize('NFC', s)) == len(s) 这避免了

python文件读取不会读取许多表情符号字符

我在json文件中有一个1500表情符号字符列表,我想将它们导入我的python代码,我做了一个文件读取并将其转换为python字典,但现在我只有143条记录.如何将所有表情符号导入我的代码,这是我的代码. import sys import ast file = open('emojidescription.json','r').read() non_bmp_ma

python – 当unicode值存在时计算NaNs

大家早上好, 我有一个包含多个系列的pandas数据帧.对于数据框中的给定系列,数据类型为unicode,NaN和int / float.我想确定系列中的NaN数量但不能使用内置的numpy.isnan方法,因为它无法安全地将unicode数据转换为它可以解释的格式.我提出了一个解决方案,但我想知道是否有更好/更多的