c – ICU字节顺序标记(BOM)
作者:互联网
我正在使用ICU的ustdio函数将UnicodeString对象写入一系列编码中的文件,但它似乎不会添加BOM.
我的代码:
void write_file(const char* filename, UnicodeString &str) {
UFILE* f = u_fopen(filename, "w", NULL, "UTF-16 LE");
u_file_write(str.getTerminatedBuffer(), str.length() + 1, f);
u_fclose(f);
}
int _tmain(int argc, _TCHAR* argv[])
{
UnicodeString str(L"ΠαρθένωνΗ");
write_file("test.txt", str);
return 0;
}
当我将LE更改为BE时,文件编码会进行交换,但是没有BOM,十六进制编辑器中的输出文件是:
A0 03 B1 03 C1 03 B8 03 AD 03 BD 03 C9 03 BD 03 97 03 00 00
注意:如果我将代码页设置为“UTF-16”,则会有一个BOM,但是一旦我手动指定了字节序,它就会消失.
或者有没有办法将UnicodeString写入带有BOM的文件?
解决方法:
只是猜测,“UTF-16 LE”和“UTF-16 BE”旨在在明确指定字节顺序时使用,并且在使用该文件的上下文中不需要BOM.
您应该能够将自己的BOM character '\ufeff'
编写到文件中.
标签:byte-order-mark,c,unicode,endianness,icu 来源: https://codeday.me/bug/20190730/1577088.html