CP936和UTF-8与巨蟒无关。编码问题再次让我熬夜。
CP936实际上是GBK。当IBM发明代码页时,把GBK放在了第936页,所以它被称为CP936。
至于GBK,《百度百科全书》明确表示:GBK是《汉字内码扩展规范》 (GBK是“国家标准”和“扩展”汉语拼音的第一个字母,英文的名字是汉语内部编码规范)。中华人民共和国国家信息技术标准化技术委员会于1995年12月1日制定。国家技术监督局标准化司和电子工业部科技质量监督司于1995年12月15日以技术监督函第1995 229号的形式共同制定了技术规范指导文件。GBK规范的这个版本是1.0版。
UTF-8: UTF-8 (8位Unicode转换格式)是Unicode的可变长度字符编码,也称为通用代码。由肯汤普森于1992年创建。现在已经标准化为RFC 3629。UTF-8将UNICODE字符编码为1到6个字节。它可以在同一个页面上显示简体中文和中文的其他语言(如英文, 日文)。
所以GBK和UTF-8简单地说,区别在于编码方法不同,文本范围也不同。(UTF-8可以代表更多的语言和文本,并且更常见)在Python中,您需要注意您的Python本身是否声明了字符编码类型(尤其是Py 2x),例如# – coding: UTF-8 – 8-
另外,如何从外部文件或网页中读取字符,它们的源代码类型是什么
如果您有互联网问题,也可以咨询我,谢谢!如果你也想一起学习人工智能,欢迎留言交流。
其他文章: