数据库
首页 > 数据库> > 为什么在MySQL时ruby无法检测到无效的编码?

为什么在MySQL时ruby无法检测到无效的编码?

作者:互联网

我正在从YouTube提取一些RSS提要,这些提要具有无效的UTF8.我可以使用创建一个类似的ruby字符串

bad_utf8 = "\u{61B36}"
bad_utf8.encoding # => #<Encoding:UTF-8>
bad_utf8.valid_encoding? # => true

Ruby认为这是有效的UTF-8编码,我很确定这不是.

当与Mysql交谈时,我得到了这样的错误

require 'mysql2'
client = Mysql2::Client.new(:host => "localhost", :username => "root")
client.query("use test");

bad_utf8 = "\u{61B36}"
client.query("INSERT INTO utf8 VALUES ('#{moo}')")

# Incorrect string value: '\xF1\xA1\xAC\xB6' for column 'string' at row 1 (Mysql2::Error)

在将它们发送给MySQL之前,如何检测或修复这些无效的编码类型?

解决方法:

可能是因为代码点不在basic multilingual plane
 这是MySQL在其“ utf8”字符集中允许的唯一字符.

较新版本的mysql具有另一个字符集,名称为“ utf8mb4”,该字符集为supports unicode characters outside the BMP.

但是您可能不想使用它.仔细考虑您的用例.很少有真正的人类语言(如果有的话)在BMP之外使用字符.

标签:utf-8,utf8mb4,ruby,mysql,internationalization
来源: https://codeday.me/bug/20191208/2091434.html