欢迎来到通信人在线![用户登录] [免费注册]

相关汉字编码字符集介绍

浏览:7362  来源:通信人在线  日期:2023-02-02

关于汉字编码字符集有多种,它们大体可以分成两类:一类是以汉字字汇作为主体的汉字编码字符集,另一类是不仅包含汉字字汇而且包含世界各国和地区使用的主要文字符号的多文种编码字符集。前一类大多依据ISO/IEC 2022所定义的体系结构,后一类则采用UCS/Unicode所定义的体系结构。在我国,同样依据这两种结构有相应的汉字编码字符集的国内标准,且在不断的扩充、完善。在介绍汉字编码字符集前,下表0给出了汉字编码字符集标准中的相关术语与定义,如:字符、字汇、控制字符、图形字符(注意:汉字属于图形字符)等,以帮助其理解。

0:汉字编码字符集标准中的相关术语与定义

一、以汉字字汇作为主体的汉字编码字符集

ISO/IEC 2022定义的编码字符集体系结构,基于单字节的256个码位的代码空间。扣除控制字符占用的64个码位,图形字符可使用的代码空间就比较狭小。因此,它规定了一个了七位代码扩充到八位代码的扩充方法,以供字符编码可采用单字节、双字节乃至四字节进行编码。汉字是大字符集,每个汉字至少需要用2个字节来表示。中、日、韩等国家和地区,对使用的汉字分别进行编码,它们的字汇、字级和字序各不相同。此类汉字编码字符集在东亚地区,尤其是中、日、韩,最主要的有如下几种。

1GB/T 2312-1980《信息交换用汉字编码字符集·基本集》

这是1981年我国颁布的第一个汉字编码国家标准,该标准采用双字节的编码方式,选出6763个常用汉字字符和682个非汉字字符,为每个字符规定了标准代码。其中一级常用汉字3755个,二级常用汉字3008个。

欲详细了解GB 2312-1980所规范的汉字编码字符集的请进入

2、关于我国信息交换用汉字编码字符集的辅助集

GB/T 2312-1980基本集编码的包括汉字的字符集过少,无法满足我国各行各业汉字信息交换的使用,于是,我国又陆续发布了7个信息交换用汉字编码字符相关辅助集的标准,包括:第一辅助集(GB/T 12345-90)、第二辅助集(GB/T 7589-1987)、第三辅助集(GB/T 13131-1991)、第四辅助集(GB/T 7590-1987)、第五辅助集(GB/T 13132-1991)、第七辅助集(GB/T 16500-1998)和第八辅助集(SJ/T 11239-2001),但无第六辅助集。以扩充更多汉字及字符的编码,或适应于不同应用的场景的汉字编码(如繁体字、地理信息字符等)。这些标准大多仍然有效,少部分已失效。下表1-2汇总了这些标准的基本情况,包括标准的编号与名称、标准的发布/实施/废止的时间、相应辅助集与基本集的关系、相应辅助集编码汉字的用途与数量等情况。

1-2:关于汉字编码字符集相关辅助集标准情况

欲详细了解我国信息交换用汉字编码字符集辅助集介绍的请进入

3、《汉字内码扩展规范》(GBK

这是我国1995年颁布的汉字编码的一个指导性规范,它虽然不是国家标准,但与国家标准具有等效作用。这是由于在我国,对于汉字等图形字符的编码,当时既有基本集,又有多个辅助集,使大家执行的标准相对较多而带来一定的麻烦。于是在1995年底,当时的电子工业部与国家质量监督总局联合发布了《汉字内码扩展规范》(GBK),它与国家标准GB/T 2312-1980信息处理交换码所对应的事实上的内码标准兼容,共有21003个汉字和883个图形符号,且在字汇一级同时又支持ISO/IEC 10646-1中的全部中日韩统一汉字(CJK)共20902个。

欲详细了解GBK所规范的汉字编码字符集情况的请进入

4GB/T 25741《信息技术 汉字编码字符集 汉字部首序和笔顺序》

2010年,参照国家语言工作委员会的《汉字部首表(2009年)》和《GB 13000.1字符集汉字部首归部规范(2009年)》,国家标准GB/T 25741规定了GB 18030-2005中双字节编码汉字和汉字部件、四字节编码部分汉字共27 533个汉字的排序,包括部首序和笔顺序。适用于文字处理软件或数据库软件的数据项、文件名、任命、地名、书目、大型数据仓库中客户和产品目录等的排序;也适用于汉字编码字符集之中相应汉字的排序(部首序和笔顺序)。

欲详细了解GB/T 25741标准的请进入

5CNS 11643《台湾地区标准汉字字符集》

其全称为《通用汉字交换码》。共收入汉字13 053个(不使用简化汉字)。与CNS 11643-1992对应的内码为Big 5(俗大五码),通常都用Big 5泛指二者。Big 5GB 2312的内码不兼容,需要进行转换才能正确地显示与打印汉字。

6JIS X 0208《日本工业标准汉字字符集》

其全称为《情报交换用汉字符号系》。共收入汉字6355个。其中一级字(即第一水准)2965个,按假名顺序排列;二级字(即第二水准)3390个,按部首、笔画数排列。

7KSC 5601《韩国国家标准汉字字符集》

其全称为《情报交换用字符集》。共收入汉字4888个,其中有268个同音重见字,按韩文读音排序;还有韩文数千个。

二、包含汉字字汇的多文种编码字符集

不同国家和地区对使用的字符集分别进行编码会产生许多问题。例如,编码系统会互相冲突,两种编码字符集可能使用相同的代码代表两个不同的字符,或使用不同的代码代表相同的字符;任何一台计算机(特别是服务器)都需要支持许多不同的编码字符集;数据在不同的系统之间交换时,总会有损坏的危险。

解决上述问题的方案是采用统一编码,即不论什么计算平台,不论什么程序语言,世界各国和地区使用的所有文字符号都采用一个惟一的代码。UCS(通用多八位编码字符集)和Unicode定义的字符集编码体系结构就是为此目标而开发的。UCSUnicode两者完全兼容,其体系结构基于所谓多八位码(4字节或2字节)。目前在工业上实现的均为双字节的UCS-2形式,即所有字符都集中在一个平面(共65536个码位)内。UCS/Unicode编码的体系结构的特点体现于下表2-0中。

2-0UCS/Unicode编码的体系结构的特点

UCS/Unicode作为体系结构的包含汉字字汇的多文种编码字符集有如下几种,包括国际标准和与之兼容的国家标准:

1ISO/IEC 10646UCS/Unicode

ISO/EEC 10646UCS/Unicode编码字符集中的汉字,是遵守中、日、韩(CJK)汉字认同甄别规则而得到的,包括CJK汉字(20902个)、CJK扩充A6582个)和CJK扩充B42 778个),后续又扩充到CJK扩充CDEF的共达17672个汉字。它们源自中国及其台湾地区、日本、韩国的13个字符集,它涵盖所介绍汉字编码标准之全部。

欲详细了解ISO/IEC 10646的通用多八位编码字符集(UCS)介绍的请进入

欲详细了解Unicode编码字符集介绍的请进入

2GB 13000《信息技术 通用多八位编码字符集(UCS)》

GB 13000是等效采用(IDTISO/IEC 10646UCS)的中国国家标准版本。它首版发布于1993年,即GB 13000-1993《信息技术 通用多八位编码字符集(UCS)第1部分:体系结构与基本多文种平面》,.IDTISO/IEC 10646.11993。在2003ISO/IEC10646.110646.2合二为一,于是我国在2010IDTISO/IEC 106462003,发布了GB/T 13000-2010《信息技术 通用多八位编码字符集(UCS)》。它包含了世界各国和地区当前主要使用的拉丁字母文字、音节文字和汉字中的常用字以及各种符号和数字共49194个。

欲详细了解GB/T 13000编码字符集的请进入

3GB 18030《信息技术 中文编码字符集》

UCS/Unicode编码中的汉字及其编码与我国已使用多年的GB 2312GBK标准并不兼容,为了既能尽快地向ISO/IEC 10646Unicode编码标准过渡,又能向下兼容GB 2312GBK汉字编码标准,因而制定并发布了GB 18030-2000汉字编码国家标准,并在2001年开始施行,后又在2005年、2022年进行了两次修订。GB 18030采用单字节、双字节和四字节编码,码位总数达160多万个,能完全映射国际标准UCS/Unicode的基本平面和辅助平面中的字符集。它包含的汉字数目增加到27000多个,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字,可适应出版、邮政、户政、金融、地理信息系统等领域的用字问题。考虑到我国用户的需要及解决现有系统的兼容性和对多种操作系统的支持,采用GB 18030是我国目前汉字编码的较好选择。目前2022年版共收录汉字87887个,比上一版增加录入了1.7万余个生僻汉字

GB 18030是中文信息技术领域最重要的基础性标准,对汉字和我国多种少数民族文字进行了统一编码,需要进行中文处理的信息系统均需应用此类编码标准,因此标准实施场景丰富、应用范围广泛,支撑了我国中文信息处理和交换需要。

欲详细了解GB 18030的中文编码字符集的请进入

欲进一步了解我国字符编码标准介绍的请进入

附录
联合国儿童基金会助学
© 2004-2024 通信人在线 版权所有 备案号:粤ICP备06113876号 网站技术:做网站