我国第一个信息交换用汉字编码字符集（GB/T 2312）

浏览：13903 来源：通信人在线日期：2023-02-04

一、概述

我国国家强制性标准GB 2312-1980《信息交换用汉字编码字符集·基本集》（Chinese Ideograms Coded Characters Set for Information Interchange-Basic Set），是1981年我国开始实施的第一个汉字编码国家标准。该编码字符集根据GB 2311《信息处理交换用七位编码字符集的扩充方法》（等效采用（EQV）ISO/IEC 2022）提供的扩充技术，通过对GB 1988《信息处理交换用的七位编码字符集》（等效采用（EQV）ISO 646）所规定C0控制集和G0图形字符集进行替换和扩充，形成双字节编码的新的编码字符集。根据国家标准化委员会2017年第7号公告和强制性标准整合精简结论，自2017年3月23日起，该标准转化为推荐性标准，不再强制执行。GB/T 2312-1980规定了汉字信息交换用的基本图形字符及其二进制编码表示，它适用于一般汉字的处理、汉字通信等系统之间的信息交换。

需要指出的是：同样是在1980年我国等效采用（EQV）了ISO 646发布了GB 1988《信息处理交换用的七位编码字符集》，该标准虽称字符集，但它仅规定了不包括汉字的128个图形字符（包括控制字符和图形字符（如汉语拼音、外文字母、阿拉伯数字、标点符号等等）的编码，所以它采用了其七位编码就够了。然而，如果将包括汉字在内的字符进行编码，七位编码肯定是不合适的。因此，为了与其兼容，我国在1980年又专门发布了GB 2311《信息处理交换用七位编码字符集的扩充方法》。该标准规定了七位编码的多种扩充技术，为字符集编码所提供的八位代码和七位代码的结构，结构中使用的代码元素在八位代码和七位代码是通用的。之所以使用八位编码是为了适应数量更多字符集（如大量的汉字）的编码，即可采用多字节编码。此时，我国发布的第一个信息交换用汉字编码字符集标准GB 2312-1980《信息交换用汉字编码字符集·基本集》，就是基于GB 2311提供的扩充方法，采用双字节的编码。

欲更多了解上述字符编码与扩充方法的请进入：GB 1988；GB 2311

另外，GB/T 2312-1980之所以称为汉字编码字符集的基本集，是因为它仅规定了最为常用的、使用频度高的6763个汉字，当初的规划是其它汉字的编码将用“辅助集”的标准来发布。为此我国曾发布了多个汉字编码字符集辅助集的标准。

欲详细了解我国汉字编码字符集辅助集标准情况的请进入。

二、关于汉字编码字符集基本集

1、编码方法

GB/T 2312中对任何一个图形字符都采用双字节编码表示，每个字节均采用GB/T 1988及GB/T 2311中的七位编码表示。两个字节中前面的字节为第一字节，后面的为第二字节。GB/T 2312字符集构成一个二维平面，它分成94行，94列，行号称为区号，从1~94编号，由第一字节标识；列号称为位号，也是从1~94编号，由第二字节标识。每一个汉字或符号在码表中都有各自的位置，字符的位置用它所在的区号（行号）及位号（列号）来表示。如下图2-1所示。

图 2-1：GB 2312-1980字符集的组成

2、图形字符

该基本集收录了一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母、汉字等，共7445个图形符号。GB/T 2312字符集由3部分组成。第一部分是字母、数字和各种符号，包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个（统称为GB 2312图形符号）；第二部分为一级常用汉字，共3755个，按汉语拼音排列，置于16~55区；第三部分为二级常用字，共3008个，因相对不太常用，所以按偏旁部首排列，置于56~87区。汉字总数为6763个。具体内容统计详见下表2-2。

表 2-2：GB 2312国标字符集图形符号的种类与数量

在GB/T 2312中，同时给出了所编码的图形符号代码表以及图形符号的排列。若要具体了解GB/T 2312-1980标准详细内容请查阅下附件2。

附件1：GB 2312-1980《信息交换用汉字编码字符集·基本集》

三、关于汉字编码的区位码、交换码和机内码（简称“内码”）

另外，在计算机内部，为了处理与存储的方便，每个汉字的区号和位号分别用单字节来表示，例如“大”字的区号是20，位号是83，它的区位码是20-83，用双字节表示为：

00010100 01010011

区位码不能用于汉字的通信。为了避免与ISO 2022中用于通信的控制码（00H~1FH）发生冲突，每个汉字的区号和位号必须分别加上32（即二进制0010 0000）。经过这样处理得到的代码称为汉字的“交换码”。因此，“大”字的交换码是：00110100 01110011。

由于文本中的汉字与西文字符经常混合在一起使用，汉字信息如不予以特别的标识，它与单字节的标准ASCII码就会混淆不清。为了解决这个问题，采用的方法之一就是把一个汉字看成两个扩展ASCII码，使表示GB 2312汉字的两个字节的最高位都等于“1”。这种高位为“1”的双字节（16位）汉字编码就称为GB 2312汉字的“机内码”，又称为内码。目前，这种表示方式已经成为GB 23122汉字内码的一种事实上的标准。上面所说的“大”字的内码是：10110100 11110011（B4F3）。

不难看出，GB 2312汉字内码在双字节代码空间中，其码位分布于右下角的1/4象限，如下图3所示。

图 3：GB 2312汉字内码在双字节代码空间中的码位分布

欲详细了解计算机汉字编码内码介绍的请进入。

温馨提示：GB/T 2312的基本集汉字仅有6763个，远不能满足我们日常使用的需要，虽然还有其各辅助集。于是，就曾经有了汉字内码扩展规范（GBK），对其进行了大大的扩充。关键是，GB/T 2312无法与ISO规定的国际文字编码方式不很兼容，于是又有了国家标准GB 18030《信息技术中文编码字符集》，该标准才是目前国内施行的汉字编码字符集最佳选择。

欲进一步了解我国字符编码的更多国家标准介绍的请进入：GBK；GB 18030

附录

本文的所有附表与附图2023-01-26

附件

GB 2312-1980《信息交换用汉字编码字符集·基本集》

6.65MB