欢迎来到通信人在线![用户登录] [免费注册]

我国第一个信息交换用汉字编码字符集(GB/T 2312)

浏览:10587  来源:通信人在线  日期:2023-02-04

一、概述

我国国家强制性标准GB 2312-1980《信息交换用汉字编码字符集·基本集》Chinese Ideograms Coded Characters Set for Information Interchange-Basic Set),是1981年我国开始实施的第一个汉字编码国家标准。该编码字符集根据GB 2311《信息处理交换用七位编码字符集的扩充方法》(等效采用(EQVISO/IEC 2022)提供的扩充技术,通过对GB 1988《信息处理交换用的七位编码字符集》(等效采用(EQVISO 646)所规定C0控制集和G0图形字符集进行替换和扩充,形成双字节编码的新的编码字符集。根据国家标准化委员会2017年第7号公告和强制性标准整合精简结论,自2017323日起,该标准转化为推荐性标准,不再强制执行。GB/T 2312-1980规定了汉字信息交换用的基本图形字符及其二进制编码表示,它适用于一般汉字的处理、汉字通信等系统之间的信息交换。

需要指出的是:同样是在1980年我国等效采用(EQV)了ISO 646发布了GB 1988《信息处理交换用的七位编码字符集》,该标准虽称字符集,但它仅规定了不包括汉字的128个图形字符(包括控制字符和图形字符(如汉语拼音、外文字母、阿拉伯数字、标点符号等等)的编码,所以它采用了其七位编码就够了。然而,如果将包括汉字在内的字符进行编码,七位编码肯定是不合适的。因此,为了与其兼容,我国在1980年又专门发布了GB 2311《信息处理交换用七位编码字符集的扩充方法》。该标准规定了七位编码的多种扩充技术,为字符集编码所提供的八位代码和七位代码的结构,结构中使用的代码元素在八位代码和七位代码是通用的。之所以使用八位编码是为了适应数量更多字符集(如大量的汉字)的编码,即可采用多字节编码。此时,我国发布的第一个信息交换用汉字编码字符集标准GB 2312-1980《信息交换用汉字编码字符集·基本集》,就是基于GB 2311提供的扩充方法,采用双字节的编码。

欲更多了解上述字符编码与扩充方法的请进入GB 1988GB 2311

另外,GB/T 2312-1980之所以称为汉字编码字符集的基本集,是因为它仅规定了最为常用的、使用频度高的6763个汉字,当初的规划是其它汉字的编码将用“辅助集”的标准来发布。为此我国曾发布了多个汉字编码字符集辅助集的标准。

欲详细了解我国汉字编码字符集辅助集标准情况的请进入

二、关于汉字编码字符集基本集

1、编码方法

GB/T 2312中对任何一个图形字符都采用双字节编码表示,每个字节均采用GB/T 1988GB/T 2311中的七位编码表示。两个字节中前面的字节为第一字节,后面的为第二字节。GB/T 2312字符集构成一个二维平面,它分成94行,94列,行号称为区号,从1~94编号,由第一字节标识;列号称为位号,也是从1~94编号,由第二字节标识。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。如下图2-1所示。

2-1GB 2312-1980字符集的组成

2、图形字符

该基本集收录了一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母、汉字等,共7445个图形符号。GB/T 2312字符集由3部分组成。第一部分是字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB 2312图形符号);第二部分为一级常用汉字,共3755个,按汉语拼音排列,置于16~55区;第三部分为二级常用字,共3008个,因相对不太常用,所以按偏旁部首排列,置于56~87区。汉字总数为6763个。具体内容统计详见下表2-2

2-2GB 2312国标字符集图形符号的种类与数量

GB/T 2312中,同时给出了所编码的图形符号代码表以及图形符号的排列。若要具体了解GB/T 2312-1980标准详细内容请查阅下附件2

附件1GB 2312-1980《信息交换用汉字编码字符集·基本集》

三、关于汉字编码的区位码、交换码和机内码(简称内码

另外,在计算机内部,为了处理与存储的方便,每个汉字的区号和位号分别用单字节来表示,例如的区号是20,位号是83,它的区位码是20-83,用双字节表示为:

00010100 01010011

区位码不能用于汉字的通信。为了避免与ISO 2022中用于通信的控制码(00H~1FH)发生冲突,每个汉字的区号和位号必须分别加上32(即二进制0010 0000)。经过这样处理得到的代码称为汉字的交换码。因此,的交换码是:00110100 01110011

由于文本中的汉字与西文字符经常混合在一起使用,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。为了解决这个问题,采用的方法之一就是把一个汉字看成两个扩展ASCII码,使表示GB 2312汉字的两个字节的最高位都等于“1”。这种高位为“1”的双字节(16位)汉字编码就称为GB 2312汉字的机内码,又称为内码。目前,这种表示方式已经成为GB 23122汉字内码的一种事实上的标准。上面所说的内码是:10110100 11110011B4F3)。

不难看出,GB 2312汉字内码在双字节代码空间中,其码位分布于右下角的1/4象限,如下图3所示。

3GB 2312汉字内码在双字节代码空间中的码位分布

欲详细了解计算机汉字编码内码介绍的请进入

温馨提示:GB/T 2312的基本集汉字仅有6763个,远不能满足我们日常使用的需要,虽然还有其各辅助集。于是,就曾经有了汉字内码扩展规范(GBK),对其进行了大大的扩充。关键是,GB/T 2312无法与ISO规定的国际文字编码方式不很兼容,于是又有了国家标准GB 18030《信息技术 中文编码字符集》,该标准才是目前国内施行的汉字编码字符集最佳选择。

欲进一步了解我国字符编码的更多国家标准介绍的请进入GBKGB 18030

联合国儿童基金会助学
© 2004-2024 通信人在线 版权所有 备案号:粤ICP备06113876号 网站技术:做网站