中文字符的编码,中文用什么编码

为什么需要中文编码格式?

第一个ASCII代码只包含127个字符,包括字符、标点符号和特殊字符。 这些文字对于拉丁裔国家的人来说足够了,但在中国和日本等非拉丁裔国家,ASCII码是不够的。 因此,需要进行编码来表示大量的汉字字符。

几种常用的中文代码格式:

1、独角兽

Unicode代码通常由两个字节(称为USC-2 )和四个字节(称为USC-4 )组成。 前127个字符表示原始ASCII码的字符,但只从1字节变成了2字节。

优点:能包罗多语言,能包罗常用汉字

不足:表示一个英文字母将从一个字节变成两个,浪费存储空间和传输速度。 生僻的字表示不足

2、UTF-8编码

一种Unicode编码,使用基本保留字符UTF-8、UTF-16和UTF-32建立了三种编码。 在UTF-8中,字符以8位序列编码,用一个或几个字节表示。 这种方法的最大优点是UTF-8保留了ASCII字符编码作为其一部分。 UTF-8俗称“万国码”,可以在同一屏幕上显示多语言,一个汉字通常占用3个字节。 为了国际化,网页将尽可能采用UTF-8编码。

3、GB2312编码

GB2312简体中文代码在每个汉字中占用两个字节,在大陆是主要的编码方式。 如果文章/网页包含繁体中文、日语、韩语等,则这些内容可能无法正确编码。

作用:国家简体中文字符集,与ASCII兼容

位数:使用2字节表示法可以表示7445个符号,包括6763个汉字,几乎涵盖所有高频汉字。

范围:高位字节从A1-A7到低位字节从A1到FE。 高位字节和低位字节分别加上0xA0后进行编码。

4、BIG5代码

名为繁体中文代码,主要用于台湾。

5、GBK码

作用: GB2312扩展,加入繁体字支持,与GB2312兼容。

位数:以2字节表示,可以表示21886个字符。

范围:高字节从81到FE,低字节从40到FE。

6、GB18030码

作用:解析中文、日语、朝鲜语等代码,与GBK兼容。

位数:以1ASCII、2、4字节的可变字节表示。 可以表示27484个字符。

范围: 1字节从00到7F; 2字节高位字节从81到FE,低位字节从40到7E和从80到FE; 4字节的第1、3字节从81到FE,第2、4字节从30到39。

参考:

[1] https://blog.csdn.net/qiqiaiairen/article/details/51535262

[2] https://www.jb51.net/article/92006.htm

飞艇如何买前5后5括6763个汉字,几乎涵盖所有高频汉字。

范围:高位字节从A1-A7到低位字节从A1到FE。 高位字节和低位字节分别加上0xA0后进行编码。

4、BIG5代码

名为繁体中文代码,主要用于台湾。

5、GBK码

作用: GB2312扩展,加入繁体字支持,与GB2312兼容。

位数:以2字节表示,可以表示21886个字符。

范围:高字节从81到FE,低字节从40到FE。

6、GB18030码

作用:解析中文、日语、朝鲜语等代码,与GBK兼容。

位数:以1ASCII、2、4字节的可变字节表示。 可以表示27484个字符。

范围: 1字节从00到7F; 2字节高位字节从81到FE,低位字节从40到7E和从80到FE; 4字节的第1、3字节从81到FE,第2、4字节从30到39。

参考:

[1] https://blog.csdn.net/qiqiaiairen/article/details/51535262

[2] https://www.jb51.net/article/92006.htm

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注