首页 > 编程语言> > C++学习之字符编码

C++学习之字符编码

2019-02-11 10:50:59 作者：互联网

用于记录一下之前的知识盲区。

1. ASCII

作用：表语英语及西欧语言。

位数：ASCII是用7位表示的，能表示128个字符；其扩展使用8位表示，表示256个字符。

范围：ASCII从00到7F，扩展从00到FF。

2.iso8859-1

作用：扩展ASCII，表示西欧、希腊语等。

位数：8位，

范围：从00到FF，兼容ASCII字符集
4.GB2312字符集
没有繁体字编码

作用：国家简体中文字符集，兼容ASCII。

位数：使用2个字节表示，能表示7445个符号，包括6763个汉字，几乎覆盖所有高频率汉字。

范围：高字节从A1到F7, 低字节从A1到FE。将高字节和低字节分别加上0XA0即可得到编码
6.GBK字符集
作用：它是GB2312的扩展，加入对繁体字的支持，兼容GB2312。

位数：使用2个字节表示，可表示21886个字符。

范围：高字节从81到FE，低字节从40到FE。

7. BIG5字符集

是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准，包括440个符号，一级汉字5401个、二级汉字7652个，共计13060个汉字

8.GB18030字符集
作用：它解决了中文、日文、朝鲜语等的编码，兼容GBK。

位数：它采用变字节表示(1 ASCII，2，4字节)。可表示27484个文字。

范围：1字节从00到7F; 2字节高字节从81到FE，低字节从40到7E和80到FE；4字节第一三字节从81到FE，第二四字节从30到39。

9.通用字符集（UCS）字符集

作用：国际标准 ISO 10646 定义了通用字符集 (Universal Character Set)。它是与UNICODE同类的组织，UCS-2和UNICODE兼容。

位数：它有UCS-2和UCS-4两种格式，分别是2字节和4字节。

范围：目前，UCS-4只是在UCS-2前面加了0x0000。
10.Unicode字符集
Unicode字符集（简称为UCS）,国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码
UTF-8
UTF:UCS Transformation Format.考虑到unicode编码不兼容iso8859-1编码，而且容易占用更多的空间：因为对于英文字母，unicode也需要两个字节来表示。所以unicode不便于传输和存储。因此而产生了utf编码，utf编码兼容iso8859-1编码，同时也可以用来表示所有语言的字符，不过，utf编码是不定长编码，每一个字符的长度从1-6个字节不等。另外，utf编码自带简单的校验功能。一般来讲，英文字母都是用一个字节表示，而汉字使用三个字节。
注意，虽然说utf是为了使用更少的空间而使用的，但那只是相对于unicode编码来说，如果已经知道是汉字，则使用GB2312/GBK无疑是最节省的。不过另一方面，值得说明的是，虽然utf编码对汉字使用3个字节，但即使对于汉字网页，utf编码也会比unicode编码节省，因为网页中包含了很多的英文字符。
UTF8编码后的大小是不一定,例如一个英文字母"a" 和　一个汉字 "好"，编码后占用的空间大小就不样了，前者是一个字节，后者是三个字节！编码的方法是从低位到高位。黄色为标志位其它着色为了显示其，编码后的位置

标签：编码,UCS,字节,字符,字符集,C++,汉字,ASCII
来源： https://www.cnblogs.com/xlsss159/p/10361044.html