计算机中文编码《区位码\国标码\机内码》进阶史

武字天书 11-22 443

前言：

现时小伙伴们对“零起点学算法94输出矩阵”可能比较关心，看官们都需要剖析一些“零起点学算法94输出矩阵”的相关内容。那么小编同时在网摘上汇集了一些关于“零起点学算法94输出矩阵””的相关资讯，希望我们能喜欢，大家快快来了解一下吧！

历史悠久的泱泱中华，文化博大精深，文字独一无二，且能没有一套属于自己的计算机编码。1980年，为了使每个汉字有一个全国统一的编码，我国颁布了汉字编码的国家标准：GB2312-80《信息交换用汉字编码字符集》基本集，这个字符集是我国中文信息处理技术的发展基础，也是国内所有汉字系统的统一标准。将一些常用符号及汉字，按区与位的方式编入码表，这套编码便是区位码。

一、区位码

区位码是一个四位的十进制数，高两位为区码(01-94)，低两位为位码(01-94)，由此组成一个94×94的矩阵，每个码值都对应着一个唯一的符号或汉字。如下图示：

图1. 第01区特殊符号

图2. 汉字区位码对照表

说明：‘啊’的区位码为1601，区码为16，位码为01。

图3. 多音字‘腌’

说明：这种编码经过加工整理一律以汉语拼音的字母为序，音节相同的字以使用频率为序，其查找方法与一般汉语字典的汉字拼音音节索引查找法相同。由于它是一种无重码的汉字编码，所以多音字只有一个编码。例如：重庆的“重”和重量的“重”，字同音不同，汉字“重”的编码是按Zhong 音编码。

由图2，图3所示，按拼音音节索引时，编码并不连续，这是因为汉字被分级处理，一级汉字相对更为常用。如下图示：

图4. 区段说明

说明：在某些硬件指标相对偏低的平台上可能依然还在使用着一级码汉字。

二、国标码

汉字区位码定义好后融入计算机，发现少了一些控制符，如回车，换行，退格等，同时ASCII编码中前32个控制码刚好包含了这些，那就借来用用吧！为此，国标码诞生了。为了兼容这些控制码，国标码规定在区码、位码的基础上分别加20H（即32的16进制数）。例如：汉字‘啊’的区位码为1601，则区码为16，位码为01，转换成16进制后，区码为10H，位码为01H，转国标码，则区码10H+20H=30H，位码01H+20H=21H，合成后国标码为3021H；

图5. 国标码

说明：图5为Mac系统中的16点阵中文国标码点阵字库，‘啊’的国标码为3021H。

三、机内码

这里特指汉字机内码，简称“内码”，亦称“变形国标码”，指计算机内部存储，处理加工和传输汉字时所用的由0和1符号组成的代码。

国标码虽说很好地解决了控制字符问题，但随着社会的发展，汉字处理系统想要兼容英文（当时主流就是ASCII），当系统中同时存在ASCII和汉字国标码时，将会产生二义性。例如：有两个字节的内容为30H和21H，它既可表示汉字“啊”的国标码，又可表示ASCII中的“0”和“!”，为此，汉字机内码诞生了。由于ASCII编码范围为00H~7FH，字节最高位皆为‘0’，机内码应对国标码加以适当变换处理，将相应国标码每个字节的最高位置为“1”，即：汉字机内码=汉字国标码+8080H。例如：“啊”字的国标码是3021H，则其汉字机内码为B0A1H=3021H+8080H。

图6. 机内码

说明：图6为按照Windows CP936（内码）编码生成的16Pixel中文点阵字库，只包含了一级码汉字（3755个字符），‘啊’的编码为：B0A1H。

上述所述，不论是区位码，国标码，还是机内码，主要都是针对GB2312-80标准（7K+字符），若按区位码94x94矩阵计算，最大也只能表达94x94=8836个字符，这时有人可能会问，若要支持更多的中文怎么办呢？

这自然难不倒勤劳又机智的“中国人”。看懂下面这张图，就都明白了。

说明：这里主要记录汉字编码，并且第一字节最高位皆为‘1’，也能很好的做到向前兼容。

GB2312-80，字符数 6763 = ①GBK，字符数 21003 = ①+②+③GB18030-2000，字符数 27533 = ①+②+③+④GB18030-2005，字符数 70244 = ①+②+③+④+⑤

想要了解更多，推荐看看这篇文章：“国家标准代码 - 百度百科”。

四、Unicode

Unicode 是为了解决传统字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求，中文只是其中的一部分。由于Unicode编码（针对中文）不连续，只能靠查表方式解决编码转换问题。

图7. Unicode

说明：‘啊’的Unicode码值为 554AH。

五、总结