在信息技术不断发展的过程中,汉字与相关符号的编码起到了极其关键的作用。对于我国,所谓字符,即文字(应包含汉字及少数民族文字等)和符号(文字中用到的相关符号,应包含控制符号和图形符号等,如字母、数字及符号);所谓字符编码,即是以固定的顺序排列字符,并以此作为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称之为“编码”。“编码”通常采用单字节、双字节或四字节编码。下表0依据我国相关国家标准,给出了相关术语及定义,以帮助对相关字符编码的理解,包括:字符、编码字符、字汇、基本集与辅助集等。
表 0:相关字符编码的术语的定义
为了汉字及符号的信息交换,我国研究制定并发布了一系列的汉字及符号编码的国家标准及行业标准。这些标准结合我国文字字符的具体情况,同时参照了相关国际标准(目的是与这些国际标准相兼容)这些编码标准从单字节编码到双字节、四字节编码;字节数的增加带来了字符字汇在不断的增加扩充。下述按其发布的顺序对我国字符编码的相关标准,索引式的介绍如下:
一、仅为符号的编码标准
仅为符号的编码标准是指没有包含编码文字(如汉字及少数民族文字)的一类标准,这类标准往往出台的较早。当然这类符号编码由于符号的数量相对较少,其编码容量也较小,一般采用单字节即七位或八位编码。
1、GB/T 1988《信息技术 信息交换用七位编码字符集》
GB/T 1988是于1980年发布的,当初是以强制性标准发布的,即GB 1988-80《信息交换用的七位编码字符集》,后经过1989年发布了第二个版本(GB 1988-1989)、1998年发布的第三个版本成为GB/T 1988-1998《信息技术 信息交换用七位编码字符集》,直到现在。GB 1988-1998等效采用的是ISO/IEC 646:1991《信息技术 信息交换用七位编码字符集》。
GB/T 1988标准规定了由128个字符(控制字符和图形字符,如字母、数字及符号)组成的字符集以及它们的编码表示。可以看出由于采用七位编码,其编码字符数量是给长有限的,没有涉及到汉字的编码。
欲详细了解GB/T 1988规定的字符编码规则的请进入。
2、GB/T 2311《信息技术 字符代码结构与扩充技术》
GB/T 2311是于1980年首版发布,当初是以强制性标准发布的,即GB 2311-80《信息交换用七位编码字符集的扩充方法》,后经过1990年发布了第二个版本,即GB/T 2311-1990《信息处理 七位和八位编码字符集 代码扩充技术》,2000年再次修订后成为GB/T 2311-2000《信息技术 字符代码结构与扩充技术》。GB/T 2311是等效采用ISO/IEC 2022。
GB/T 2311不是一个编码字符集的标准,但它非常重要,尤其是在采用多字节字符编码时。本标准规定了七位代码的扩充方法,它用于七位环境中,也可用于八位环境中。当GB 1988规定的七位代码作为信息交换用的约定代码时,该标准所描述的八位代码供八位环境中的信息交换用。它是一个七位编码向八位编码过渡的标准,以更便于计算机的信息交换,为后续的单字节、双字节编码提供条件。
欲详细了解GB/T 2311-2000标准的请进入。
二、仅包括汉字和符号的编码标准
我国是一个以汉字为主要文字的国家,由于汉字不是拼音文字,有着独特的字形结构,而且数量巨大(仅常用的就达六千多个),因此必须结合我国汉字的特点进行字符编码。当然它采用单字节编码,显然其编码容量是不够的,往往采用多字节编码,可达四个字节。同时包括有GB/T 1988中符号的编码,但不包括其它文字的编码。
1、GB/T 2312《信息交换用汉字编码字符集·基本集》
此标准最初是于1980年发布的,并以强制性标准发布,至今没有修订,只是根据国家标准化委员会2017年第7号公告和强制性标准整合精简结论,自2017年3月23日起,该标准转化为推荐性标准,不再强制。
该编码字符集根据GB 2311-80《信息交换用七位编码字符集的扩充方法》提供的扩充技术,通过对GB 1988《信息交换用的七位编码字符集》所规定C0控制集和G0图形字符集进行替换和扩充,形成双字节编码的新的编码字符集。该标准规定了汉字信息交换用的基本图形字符(包括一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母、汉字等)及其二进制编码表示。
欲详细了解GB/T 2312介绍的请进入。
2、关于汉字内码扩展规范GBK
由于GB/T 2312-80中的编码的汉字数量相对有限,因此,在1995年12月15日由当时的电子部和国家技术监督局联合以“技监标函[1995] 229号”文件的形式发布了《汉字内码扩展规范》(GBK),其并没有以国家标准(GB)发布,而是以技术规范指导性文件发布。但事实上其地位相当于国家标准,其GBK的含义是国标(GB)的扩展(K)。
GBK大大扩充了GB 2312字汇的汉字编码的字符集,就汉字而言,GBK由GB 2312的6763个汉字一下扩充到21 003个,既包含了GB 2312中内容,又包含了日韩用汉字的内容。
欲详细了解GBK介绍的请进入。
3、关于汉字编码字符集相关辅助集标准
对于GB/T 2312《信息交换用汉字编码字符集·基本集》仅为基本集,为了配合和扩充基本集的使用,我国曾又出台了7个信息交换用汉字编码字符相关辅助集的标准,包括第一辅助集(GB/T 12345-90)~第八辅助集(SJ/T 11239-2001),但无第六辅助集。以扩充更多汉字及字符的编码,或适应于不同应用的场景的汉字编码(如繁体字、地理信息字符等)。这些辅助集标准除一个电子行业标准外其它都是国家标准;这些标准大多仍然有效,少部分已失效。下表2-3列出了这些标准的编号与名称及其有效性情况。
表 2-3:我国信息交换用汉字编码字符相关集辅助集的标准
欲详细了解我国信息交换用汉字编码字符相关辅助集内容介绍的请进入。
三、包括有汉字和符号及世界各种文字的编码标准
1、GB/T 13000《信息技术 通用多八位编码字符集(UCS)》
该标准最早发布于1993年,并以强制性标准发布,即GB 13000.1《信息技术 通用多八位编码字符集(UCS)第1部分:体系结构与基本多文种平面》,在2010年进行了修订成为GB 13000《信息技术 通用多八位编码字符集(UCS)》。但根据国家标准化委员会2017年第7号公告和强制性标准整合精简结论,自2017年3月23日起,该标准转化为推荐性标准,不再强制执行。
欲详细了解GB 13000标准版本情况的请进入。
我国GB/T 13000等同采用了ISO/IEC 10646《通用多八位编码字符集》(UCS,Universal Multiple-Octet Coded Character Set)。UCS是解决全世界现代书面文字所使用的所有字符、符号进行统一编码,以利于国际间的文字信息交换。它包括有中日韩统一汉字(CJK汉字)的编码。
欲详细了解GB/T 13000介绍的请进入。
2、GB 18030《信息技术 中文编码字符集》
GB 18030的首版本是在2000年3月17发布的,即GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》。2005年11月和2022年7月我国又对其进行了两次修订,成为GB 18030-2005《信息技术 中文编码字符集》和GB 18030-2022《信息技术 中文编码字符集》。
欲详细了解GB 18030标准版本情况的请进入。
UCS/Unicode编码中的汉字及其编码与我国已使用多年的GB 2312和GBK标准并不兼容,为了既能尽快地向UCS/Unicode编码标准过渡,又能向下兼容GB 2312和GBK汉字编码标准,信息产业部和国家质量技术监督局在2000年联合发布了GB 18030-2000汉字编码国家标准,它统合了GB/T 2312、GBK和GB/T 13000。因此,目前在我国,选用符合GB 18030标准的字符编码是最实际的选择,而况它是我国目前在字符编码标准中唯一的一个强制性国家标准。
欲详细了解GB 18030介绍的请进入。
下表n汇总了上述我国字符编码标准所规范的字符(汉字和符号)的数量情况,以供了解。
表 n:我国字符编码标准所规范字符(汉字和符号)的数量
欲进一步了解汉字键盘输入编码的请进入。