首页 > TAG信息列表 > utf-8

趣谈unicode,ansi,utf-8,unicode big endian这些编码有什么区别

从头讲讲编码的故事。那么就让我们找个草堆坐下,先抽口烟,看看夜晚天空上的银河,然后想一想要从哪里开始讲起。嗯,也许这样开始比较好…… 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们

php-如何使用HTML Purifier使 正常运行?

我在PHP项目中使用HTML Purifier,但无法使其与用户输入一起正常工作. 我让用户使用WYSIWYG编辑器(TinyMCE)输入HTML,但是每当用户输入HTML实体& nbsp; (不间断空格)作为奇怪的外来字符(Â)被保存到数据库中. 但是,事实是,当我使用WYSIWYG编辑器编辑保存的条目时,它会正确显示为& nb

php-Zend Framework PDF生成unicode问题

我在使用Zend Framework的PDF时遇到麻烦 创建PDF文件时,我需要使用UTF-8作为编码. 这是我用来生成简单pdf文件的代码.我总是得到这个错误的显示.而不是在pdf文件中看到“Faktúra”,而是给了我“Faktú”而不是在pdf文件中看到“Dodávateľ:”,而是给了我“Dodáva” $pdf = new Z

Java中的Unicode感知CSV解析器

我正在寻找具有正确处理Unicode数据的CSV(逗号分隔值)解析器的Java实现,例如具有中文文本的UTF-8 CSV文件.我想这样的解析器在迭代,比较等过程中应该在内部使用与代码点相关的方法. Apache 2许可证或类似的许可证将是最好的.解决方法:我不相信重新发明轮子.因此,我不想编写自己的解

php-插入MySQL表时,∞转换为∞

当无穷大符号(∞)通过PHP脚本插入到MySQL表中时,会转换为ˆ,但是如果我直接从phpMyAdmin插入,它将正确插入.该符号通过一个GET调用传递到PHP脚本,该调用带有围绕内容的JavaScript函数encodeURIComponent(). MySQL数据库中的字段是utf8_swedish_cl.如何获得∞作为∞插入数据库?解决方

howto:使用Java在Windows终端中输出utf-8(kannada)字符

正在使用Java(tomcat)应用程序.有时会写入标准输出.但是我注意到印度语言(比如kannada)原来是??????标准上的字符. Windows Vista(SP1家庭高级版64位)上的Windows控制台(终端). 我知道我可以在emacs中运行tomcat(GNU Emacs 23.1.50.1(i386-mingw-nt6.0.6001)),因此我可以从emacs中

如何在Java中有效替换XML文档中的字符?

我正在寻找一种简洁有效的方法来替换XML文档中的字符.定义了一个替换表,用于将近12.000个UTF-8字符,其中大多数将被单个字符替换,但是一些替换表必须被两个或什至三个字符替换(例如,希腊语theta应该变为TH).这些文档可能很庞大(100MB).用Java怎么做?我想到了使用XSLT的想法,但是我不

即使所有内容都是utf-8编码的,为什么还要使用set_charset(“ utf8”)? (MySQLi-PHP)

我表的排序规则是utf8_general_ci. 我的页面使用UTF-8编码(没有BOM). 在我的页面中,我的Equiv元标记将字符集设置为utf8 我的数据中有土耳其语字符. 当我输出它们时,它没有按原样显示它们,但是当我执行$db-> set_charset(“ utf8”);时,它起作用了. 为什么我必须使用$db-> set_char

如何将Window-1251(俄语西里尔字母)MySql数据库转换为UTF-8

我有一个俄罗斯网站的数据库,它在Windows-1251中编码.换句话说,这些字母从phpmyadmin看起来像这样:ûõîäÿùàÿâËîíäîíåãàçåòàíààðàáñêîìÿçûêå«Àëü-Õàéÿò»ñîîáùèëà.换句话来说,字迹难以辨认.为了使内容正确显示,必须在php中添

php-将网页从不同的字符集迁移到UTF-8

在过去的几年中,我在Win XP SP2上使用了记事本. 如我所见,记事本中的设置是将“ Windows格式”中的新文件编码为“ ANSI”.基本上,我硬盘上的所有文件都应该是ANSI文件,但是我不确定.大多数.html文件的字符集标记为“ text / html; charset = iso-8859-1”,但有些文件没有.我使用Fi

如何将Python中的双UTF-8解码器代码转换为Lua

我有这个旧代码片段,(显然)它将经过双重编码的UTF-8文本解码回普通的UTF-8: # Run with python3! import codecs import sys s=codecs.open('doubleutf8.dat', 'r', 'utf-8').read() sys.stdout.write( s .encode('raw_unicode_escap

java-在jdbc中将字符转换为’

我正在尝试从MySql数据库中读取UTF-8字符串,该字符串是使用以下命令创建的: CREATE DATABASE april DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; 我使用以下方法制作感兴趣的表: DROP TABLE IF EXISTS `article`; CREATE TABLE `article` ( `id` int(11)

为什么在MySQL时ruby无法检测到无效的编码?

我正在从YouTube提取一些RSS提要,这些提要具有无效的UTF8.我可以使用创建一个类似的ruby字符串 bad_utf8 = "\u{61B36}" bad_utf8.encoding # => #<Encoding:UTF-8> bad_utf8.valid_encoding? # => true Ruby认为这是有效的UTF-8编码,我很确定这不是. 当与Mysql交谈时,我得到了这

插入数据库问题…(错误字符编码)PHP / MYSQL

我有一个提交到mysql数据库的表格. 数据库设置为UTF-8_GENERAL,并且行也使用相同的字符编码. 但是,当我提交文本中带有“ő”或“ű”的表格时,在这些字符之后不提交任何内容.(例如:“这是美好的一天.”只是将其插入数据库:“这是美好的一天”) 表单验证页面上有    mysql_real_e

PHP多字节字符串正则表达式

我们有一个正则表达式可以去除“#”,“&”之外的非字母数字字符和“-”.看起来像这样: preg_replace('/[^a-zA-Z0-9#&-*]/', '', strtolower($title)); 现在,我们需要支持繁体中文字符串,并且以上功能将不起作用.如何为繁体中文实现类似的功能. 谢谢,解决方法:使用u修饰符: preg_r

Java-爬行非英语网站的编码问题

我试图以字符串的形式获取网页的内容,但发现了一个问题how to write a basic web crawler,该问题声称(似乎)处理了编码问题,但是那里提供的代码适用于美国/英语网站,无法正确处理其他语言. 这是一个完整的Java类,演示了我所指的内容: import java.io.IOException; import java.io.I

从php发送邮件-字符集编码

我正在从php脚本发送自动邮件,用希腊语编写. 我试过了: $headers = "MIME-Version: 1.0\r\n"; $headers .= "Content-type: text/plain; charset=utf-8\r\n"; $headers .= "From: example@mail.com\r\n"; $headers .= "Reply-To: example@mail.com\r

utf-8-使用pcre 8.3在nginx上的unicode url重写规则失败

我遇到的问题与the one described on this question类似.但是,我设法使用最新的PCRE(8.30)编译了nginx(1.0.14),将重写规则更改为使用UTF8,但仍然失败. 我的重写规则是 location / { try_files $uri $uri/ /index.php; rewrite "(*UTF8)^/imgthumb/(.*)$" /timthumb.php?$

PHP:带有UTF-8的json_encode和json_decode

我有以下数组: Array ( [1] => Array ( [time] => 07:30 [event] => Celebrity Organ Recital &acirc;€“ Sophie-V&Atilde;&copy;ronique Cauchefer-Choplin ) ) (原始事件字符串为:“名人器官演奏会–Sophie-VéroniqueCauchefer

php-使用FPDF显示波兰语字符时出现问题?

我们在尝试使波兰语字符正确显示在使用FPDF生成的发票上时遇到问题.我不确定是我们使用的是FPDF还是字体造成了问题.在两个服务器上都正确设置了UTF-8 PHP配置和MySQL配置.来自网站代码和数据库的所有波兰语字符均正确显示在网站上. 在FPDF中: -原文:Zażółćgęśląjaźń:  -//

Python强制dict条目为utf-8

我花了一个下午的大部分时间来尝试修补字典对象以utf-8编码代替unicode.我试图找到扩展词典对象的最快,性能最好的方法,并确保其条目,键和值均为utf-8. 这是我想出的,它可以完成工作,但是我想知道可以进行哪些改进. class UTF8Dict(dict): def __init__(self, *args, **kwargs

java-如何从utf-8字符中删除不可见的字符

我写了一个程序来生成一个随机的utf-8字符串,但是有些混乱. 我不知道我的代码是否错误或某些字符不可见,如何去除这些混乱的字符(但我想保留中文,韩文,日文,符号等)? 有代码: private byte randomByteInRange(int min, int max) { return (byte) (min + rand.nextInt(max - min)

包含非ASCII字符的字符串被PHP / MySQL截断

我的页面具有翻译功能here.这里的问题是,当我将语言翻译成法语时,会切掉单词,因为页面无法正确解释单词.我检查了与我的问题有关的帖子,但都没有用. 在我的页面中,我放入了以下内容: >标头(‘Content-Type:text / html; charset = WINDOWS-1252’); ->这仅仅是为了坚持启动编码.我认

java-如何更改Emma的HTML报告的编码?

我一直在努力使其工作约1.5个小时… 我让Emma在Jenkins中运行,并且让Jenkins将Emma报告移至工件目录,以便可以在Jenkins构建中查看它们.除了报表是使用ISO-8859-1编码的,所有这些都可以正常工作.当我通过java -jar jenkins.war运行Jenkins或将jenkins.war放到我的本地Tomcat中时,它

使用php将阿拉伯文本存储在mysql数据库中

我正在尝试将一些阿拉伯数据存储在mysql数据库中我已将html文档字符集设置为’utf8′ <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/> MySQL字符集设置为:UTF-8 Unicode(utf8) MySQL连接排序规则设置为:utf8_general_ci 数据库和表的排序规则设置为:utf8_ge