首页 > 其他分享> > 汉字编码的理解

汉字编码的理解

2021-05-08 06:01:14 作者：互联网

为了解决中国、日本和韩国的象形文字符和ASCII的某种兼容性，出现了双字节字符集（DBCS：double-byte character set）。DBCS从第256 代码开始，就像ASCII一样，最初的128个代码是ASCII。然而，较高的128个代码中的某些总是跟随着第二个字节。这两个字节一起（称作首字节和跟随字节）定义一个字符，通常是一个复杂的象形文字。

A在ascii中定义为01000001，也就是十进制65，有了这个标准后，当我们输入A时，计算机就可以通过ascii码知道输入的字符的二进制编码是01000001。而没有这样的标准，我们就必须自己想办法告诉计算机我们输入了一个A；没有这样的标准，我们在别的机器上就需要重新编码以告诉计算机我们要输入A。ascii码指的不是十进制，是二进制。只是用十进制表示习惯一点罢了，比如在ascii码中，A的二进制编码为01000001，如果用十进制表示是65，用十六进制表示就是41H。

　　在ascii码表中，只包括了一些字符、数字、标点符号的信息表示，这主要是因为计算机是美国发明的，在英文下面，我们使用ascii表示就足够了！但是在汉字输入下面，用ascii码就不能表示了，而汉字只是中国的通用表示，所以如果我们要在计算机中输入汉字，就必须有一个像ascii码的标准来表示每一个汉字，这就是中国的汉字国标码，它定义了汉字在计算机中的一个表示标准。通过这个标准，但我们输入汉字的时候，我们的输入码就转换为区位码，通过唯一的区位码得到这个汉字的字形码并显示出来。当然汉字的区位码在计算机中也是用二进制表示的

！

汉字编码
　 0-127 是 7位ASCII 码的范围，是国际标准。

　　至于汉字，不同的字符集用的ascii 码的范围也不一样，常用的汉字字符集有GB2312-80,GBK,Big5,unicode 等。下面我重点说一说最常用的GB_2312 的字符集。

　　GB_2312 字符集是目前最常用的汉字编码标准，windows 95/98/2000 中使用的 GBK字符集就包含了GB2312，或者说和GB2312 兼容，GB_2312 字符集包含了 6763个的简体汉字，和682 个标准中文符号。在这个标准中，每个汉字用2个字节来表示，每个字节的ascii码为 161-254 (16 进制A1 - FE)，第一个字节对应于区码的1-94 区，第二个字节对应于位码的1-94 位。

　　161-254 其实很好记忆，大家知道英文字符中，可打印的字符范围为33-126。将这对数加上128（或者说最高位置1），就得到汉字使用的字符的范围。

标签：字符,字节,理解,字符集,汉字,标准,汉字编码,ascii
来源： https://www.cnblogs.com/lanhaipeng/p/14743399.html