为什么需要中文编码格式?
第一个ASCII代码只包含127个字符,包括字符、标点符号和特殊字符。 这些文字对于拉丁裔国家的人来说足够了,但在中国和日本等非拉丁裔国家,ASCII码是不够的。 因此,需要进行编码来表示大量的汉字字符。
几种常用的中文代码格式:
1、独角兽
Unicode代码通常由两个字节(称为USC-2 )和四个字节(称为USC-4 )组成。 前127个字符表示原始ASCII码的字符,但只从1字节变成了2字节。
优点:能包罗多语言,能包罗常用汉字
不足:表示一个英文字母将从一个字节变成两个,浪费存储空间和传输速度。 生僻的字表示不足
2、UTF-8编码
一种Unicode编码,使用基本保留字符UTF-8、UTF-16和UTF-32建立了三种编码。 在UTF-8中,字符以8位序列编码,用一个或几个字节表示。 这种方法的最大优点是UTF-8保留了ASCII字符编码作为其一部分。 UTF-8俗称“万国码”,可以在同一屏幕上显示多语言,一个汉字通常占用3个字节。 为了国际化,网页将尽可能采用UTF-8编码。
3、GB2312编码
GB2312简体中文代码在每个汉字中占用两个字节,在大陆是主要的编码方式。 如果文章/网页包含繁体中文、日语、韩语等,则这些内容可能无法正确编码。
作用:国家简体中文字符集,与ASCII兼容
位数:使用2字节表示法可以表示7445个符号,包括6763个汉字,几乎涵盖所有高频汉字。
范围:高位字节从A1-A7到低位字节从A1到FE。 高位字节和低位字节分别加上0xA0后进行编码。
4、BIG5代码
名为繁体中文代码,主要用于台湾。
5、GBK码
作用: GB2312扩展,加入繁体字支持,与GB2312兼容。
位数:以2字节表示,可以表示21886个字符。
范围:高字节从81到FE,低字节从40到FE。
6、GB18030码
作用:解析中文、日语、朝鲜语等代码,与GBK兼容。
位数:以1ASCII、2、4字节的可变字节表示。 可以表示27484个字符。
范围: 1字节从00到7F; 2字节高位字节从81到FE,低位字节从40到7E和从80到FE; 4字节的第1、3字节从81到FE,第2、4字节从30到39。
参考:
[1] https://blog.csdn.net/qiqiaiairen/article/details/51535262
[2] https://www.jb51.net/article/92006.htm
飞艇如何买前5后5括6763个汉字,几乎涵盖所有高频汉字。
范围:高位字节从A1-A7到低位字节从A1到FE。 高位字节和低位字节分别加上0xA0后进行编码。
4、BIG5代码
名为繁体中文代码,主要用于台湾。
5、GBK码
作用: GB2312扩展,加入繁体字支持,与GB2312兼容。
位数:以2字节表示,可以表示21886个字符。
范围:高字节从81到FE,低字节从40到FE。
6、GB18030码
作用:解析中文、日语、朝鲜语等代码,与GBK兼容。
位数:以1ASCII、2、4字节的可变字节表示。 可以表示27484个字符。
范围: 1字节从00到7F; 2字节高位字节从81到FE,低位字节从40到7E和从80到FE; 4字节的第1、3字节从81到FE,第2、4字节从30到39。
参考:
[1] https://blog.csdn.net/qiqiaiairen/article/details/51535262
[2] https://www.jb51.net/article/92006.htm