欢迎来到通信人在线![用户登录] [免费注册]

我国的中文编码字符集(GB 18030)

浏览:16965  来源:通信人在线  日期:2023-01-30

一、概述

1、中文编码字符集(GB 18030)的渊源

我们知道,相对于中文编码字符集,我国在2000年前就有近十个字符集的标准或规范在实施,具体详见下表1-1所列(包括字符集的标准名称与特征),好不热闹!这些字符集,有我国自主制定的,有等同采用国际标准制定的;有国家标准的,有部门技术规范的;收录的图形字符(汉字、CJK统一汉字、图形符号等)的数量、字形、用途、种类(简化字、繁体字、异体字、CJK等)以及编码技术等要求也不尽相同。这就带来了一些严峻的现实问题,重点表现在如下方面:一是字符集的互相兼容问题,特别是国内自主制定的字符集标准与国际标准的兼容性。二是字符集多而杂乱,为字符集使用者的使用带来苦恼与极大的不便。三是某些字符集的强制力欠缺(如还有以部门技术规范文件来发布的),为字符集的应用带来其随意性。

1-1:当时我国存在的中文编码字符集情况(2000年前)

鉴于上述,我国亟待需要一个统一的、全面的、权威的、兼容性好的中文(不仅是汉字,还应包括我国的少数民族文字)编码字符集,以更有利于我国中文字符集信息的处理和信息通信。

2、中文编码字符集(GB 18030)的首发

于是,在20003月,我国首次自主编制并发布了GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》。该字符集是我国首次采用三种字节方式编码技术,即单字节(图形符号编码)、双字节和四字节(汉字编码)。在之前我国的汉字编码字符集均是采用双字节编码方式,此是我国首次对四字节编码做出了安排。这是因为对于汉字编码字符集来讲,GB 18030-2000收录了表1-1中所示的所有字符集的汉字,多达27585个,仅采用双字节方式编码是不可能实现的。

GB 18030-2000的发布,对我国汉字编码字符集进行了统一标准发布,且是以国家强制性标准发布,关键是它向下兼容原来的基本集、辅助集和GBK,向上支持国际标准的UCS/Unicode(即GB/T 13000.1),彻底解决了原来诸多字符集的不堪现实。GB 18030-2000的编码是在GB 2312GBK的基础上进行的,它增加了四字节的编码,能完全映射UCS/Unicode的基本平面和辅助平面中的字符集。下表1-2总结了GB 1803字符集的特点(优点)。

1-2GB 1803字符集的特点

欲更多了解我国早期汉字编码字符集介绍的请进入基本集GBK

3、中文编码字符集(GB 18030)的修订

GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》标准名称可以看出,其出发点是建立在对GB/T 2312(基本集)的扩充,即GB 18030-2000只是对编码汉字数量的扩充,扩充的数量为:双字节扩充到GBK的数量(21003个);四字节安排了CJK统一汉字扩充A的数量(6582个)。此时,还不是中文编码字符集(仍是一个汉字编码字符集),因为它还没有包括我国少数民族的文字。

于是,在2005年对GB 18030-2000进行了第1次修订,此时标准的名称变为GB 18030-2005《信息技术 中文编码字符集》,即它不仅包含了编码汉字(又增加了CJK统一汉字扩充B),也包括了编码少数民族文字。在2022年对GB 18030进行了第2次修订,此次修订标准的名称保持不便,对汉字和少数民族文字的数量都进行了扩充。三个版本标准的编码体系结构均保持不变,详见下表1-3-1(可知,其提供的编码位组多达16112838码位)。下表1-3-2汇总了三个版本的字汇构成情况,以了解其包括的字汇及增扩情况。

1-3-1GB 18030的编码体系结构

1-3-2GB 18030各版本的字汇构成情况

欲详细了解GB 18030标准版本变化情况请进入

二、GB18030-2022字符集介绍

GB 18030-2022《信息技术 中文编码字符集》于20228月开始实施,是我国最适合我国国情、最齐全、最权威的中文(汉字和少数民族文字)编码字符集,其中编码的汉字数量达到8.7887万个,比2005年版增加了1.7万余个;少数民族文字达到10种。可适应我国各行各业的文字信息的处理与交换,其适用对象为所有具备中文信息化处理及交换功能的产品,包括软件产品和硬件产品,具体包括但不限于下表2-0所示。下述对GB 18030-2022做一简要介绍,若要详细了解该字符集具体内容的请查阅下附件。

2-0GB 18030-2022所适用于的软硬件产品

附件:GB 18030-2022《信息技术 中文编码字符集》

1、关于字汇

GB 18030-2022收录的字符是以单字节、双字节和四字节编码,各字节方式的字汇构成已汇总于表1-3-2之中。

2、关于码位

对于中文编码字符集GB 18030的码位总体结构以及各字节方式的码位具体安排,其三个版本是完全相同的,具体可见表1-3-1。在GB 18030各版本中还分别给出了三种字节方式的码位安排总体结构图。下述依据GB 18030-2022具体介绍各字节方式的码位具体安排:

对于单字节部分的码位分配是按照GB 11383-89的规则分配,其具体分配详见下图2-2,共有128个码位。对于双字节部分的码位分配可详见下表2-2-1,共有23940个码位(其中,汉字区码位21008个,图形符号区码位1038个,用户自定义区码位1894个)。对于四字节部分的码位分配可详见下表2-2-2,共有1587600个码位(其中,少数民族文字区码位14731个,CJK统一汉字区码位67145个,用户自定义区码位25200个,保留区1480524个)。

2-2:单字节部分的码位分配图

2-2-1:双字节部分的码位分配表

2-2-2:四字节部分的码位分配表

由上表可知,根据GB 18030-2022对于双字节部分的码位分配已全部分配完毕,对于四字节部分的码位分配,其已分配的仅占全部码位的6.7%,仍有大量的码位空间待分配。

3、关于字符

GB 18030-2022中对于字符的安排是,单字节方式的字符数128个(可见图2-2),其字符的排序顺序应符合GB/T 11383-89中相应字符的顺序排列。双字节方式的字符数为21882个,具体详见下表2-3-1(包括图形符号894个,汉字20974个,汉字部首14个);其字符的排列顺序应符合GB 18030-2022附录A的规定(它同时给出了该字符对应的GB/T 13000代码位置)。四字节方式的字符数72859个,具体详见下表2-3-2(包括我国少数民族文字5732个,CJK统一汉字66913个,汉字部首214个),其字符的排列顺序应符合GB 18030-2022附录C的规定(它同时给出了该字符对应的GB/T 13000代码位置)。据此,在GB 18030-2022中收录的汉字共87887个。

2-3-1:双字节方式的字符情况

2-3-2:四字节方式的字符情况

4、关于字符集的实现级别

关于GB 18030的三个版本,虽然都是强制性标准,且是我国在汉字编码方面唯一的一个强制性标准,但各版本强制性要求是不相同的,具体情况详见下表2-4-1。对于GB 18030-2022版本,在全文强制的基础上设立3个实现级别,并给出应达到各实现级别要求的产品类型(其中实现级别3要求最高),具体情况详见下表2-4-2。这样对于中文字符集的使用应用将更加人性化。

2-4-1GB 18030的三个版本强制性要求

2-4-2GB 18030-2022的实现级别要求

三、GB 18030ISO/IEC 10646GB/T 13000)、Unicode字符集之间的比较

GB/T 2312相比,GB 18030ISO/IEC 10646GB/T 13000)、Unicode这几种字符集的字汇要大的多,在广义上都可以称大字符集,显然优于GB/T 2312。因此,下面的比较将不包括GB/T  2312。由于GBK已经被GB 18030-2000取代,下面的比较将在GB 18030ISO/IEC 10646GB/T 13000)和Unicode字符集之间进行。

欲更多了解相关国际汉字编码字符集介绍的请进入ISO/IEC 10646Unicode

1、技术方面

在技术方面,主要表现在编码空间、字汇容纳、编码字节方式、兼容性等方面,具体详见下表3-1

3-1GB 18030ISO/IEC 10646GB/T 13000)和Unicode之间在技术方面的比较

2、管理方面

在管理方面,主要是从字符集的研制、完善和应用的主动性和影响力方面的比较,具体详见下表3-2

3-2GB 18030ISO/IEC 10646GB/T 13000)和Unicode之间在管理方面的比较

综上所述,GB 18030ISO/IEC 10646GB/T 13000)和Unicode规范在技术上都十分优秀。从我国信息技术和信息产业发展的角度考虑,无论采用GB 18030还是ISO/IEC 10646都十分有利,而在我国直接采用Unicode规范显然是不合适的。考虑到解决我国用户的需要和解决旧有系统的兼容性问题,以及信息安全的要求,目前采用GB 18030是较为有利的选择。

欲进一步了解我国字符编码介绍的请进入

附录
联合国儿童基金会助学
© 2004-2024 通信人在线 版权所有 备案号:粤ICP备06113876号 网站技术:做网站