无论如何,在Java编译时是否需要更改String的编码?
作者:互联网
所以我有这个简单的代码:
public class FooBar {
public static void main(String[] args) {
String foo = "ğ";
System.out.println(foo.getBytes().length);
}
}
让我编译并运行它:
$javac FooBar.java
$java -Dfile.encoding=UTF-32 FooBar
4
好的,我不奇怪一个字符在一个字符串中占了4个字节,因为我告诉Java在运行程序时使用UTF-32编码.
让我们尝试使用UTF-8编码运行程序:
$java -Dfile.encoding=UTF-8 FooBar
2
一切似乎都很好.
现在,当前的类文件(FooBar.class)为451字节.我将像这样更改代码:
public class FooBar {
public static void main(String[] args) {
String foo = "ğğ";
System.out.println(foo.getBytes().length);
}
}
再次编译它,然后查看磁盘中文件的长度为:453字节.
显然,文件本身以UTF-8编码存储在磁盘中.如果我现在使用UTF-32编码运行此.class文件:
$java -Dfile.encoding=UTF-32 FooBar
8
一切似乎都很好,但是,是否有任何办法告诉编译器使用UTF-32编码String字符来对.class文件进行编码?
解决方法:
系统属性file.encoding确定默认字符集,但编译器未使用它.
Java类文件具有已定义的二进制数据结构,该结构不能更改(除非您编写自己的编译器和类加载器).
因此,常量池中字符串的编码始终为modified UTF-8.
标签:unicode,encoding,utf-8,utf-32,java 来源: https://codeday.me/bug/20191119/2033871.html