欢迎来到通信人在线![用户登录] [免费注册]

数字键盘与通用键盘的键盘汉字输入编码技术

浏览:12023  来源:通信人在线  日期:2023-02-02

一、引述

汉字键盘输入(Chinese character input via keyboard),即操作者通过键盘(包括数字键盘、通用键盘等)向通信终端、计算机等信息设备手动键入汉字及标点符号的过程、技术和方法。又称为汉字编码输入。它是计算机、通信终端和其它信息技术产品设备(如手机、PDA、电子词典、学习机等)输入汉字的主要方法之一。在国家标准GB/T 19246中,对于通用键盘汉字输入系统给出的定义就是:由字(词)编码表、数据处理、输入接口构成的将汉字、词语的通用键盘元素编码转换为汉字內部码的软件系统。通用键盘汉字输入系统由编码层次和软件层次组成。

欲更多了解计算机中汉字编码介绍的请进入

向信息技术产品设备输入汉字的方法有两种形式:一是自动识别输入,包括汉字的自动识别和汉语言语的自动识别;另一种就是汉字键盘输入。由于计算机最早由西方国家研制开发,它使用的键盘是面向输入西文字符设计的,一个或两个西文字符对应着键盘上的一个按键。汉字是大字符集,国家标准汉字编码字符集包含的汉字已达8万多字,专用的一键一字的汉字输入键盘由于键太多、查找不便、成本又高等原因早已不再采用。利用只有几十个键的计算机键盘(甚至只有十几个键的通信终端键盘)输入汉字时,无法使每个汉字与键盘上的按键一一对应,因此必须用一个或几个按键的组合来表示汉字,这就是汉字的键盘输入编码。

设计一种汉字键盘输入编码方案,首先要利用汉字的音、形等特征信息,按照一定规则,对指定的汉字编码字符集中的每一个汉字进行描述,然后再确定这些特征信息与键盘按键之间的对应关系,这样就可以在普通西文键盘及数字键盘上输入汉字了。

二、输入编码方案的分类

汉字的键盘输入编码方案有几百种之多,能够被广泛接受的编码方案应具有下列特点:易学习、易记忆、效率高(平均击键次数较少)、重码少、容量大(可输入的汉字字数多)等。事实上,能够在所有方面都做得很好的编码方法还不多。

汉字输入编码的方案可以从不同的角度进行分类。例如从使用者的角度看有普及型(面向一般用户)和专业型(面向专业的数据录入人员)两类。从编码特征的角度看大体可以分成4类:

一是数字编码。这是使用一串数字来表示汉字的编码方法,例如电报码、区位码等,它们难以记忆,不易推广。

二是字音编码。这是一种基于汉语拼音的编码方法,简单易学,适合于非专业人员;缺点是同音字引起的重码多,需增加选择操作。

三是字形编码。这是将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快,但编码规则不易掌握,五笔字形法和表形码属于这一类。

四是音和形结合的音形码或形音码。它吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少,但掌握起来也不容易。

五是智能汉字输入法。它是在上述编码输入方案的基础上,利用计算机等信息技术设备的高速处理和存储能力,充分发挥计算机等的统计学习功能,实现字词联想、词语联想,并采用词性、词法、词语搭配频率、句法甚至部分语义和语用知识来输入汉字,同时还自动记忆新词,自动调整词语频率等,这些所谓的“智能汉字输入法”,受到了广大用户的欢迎,目前应用较广。

三、国家的标准规范

汉字键盘输入的编码方案虽然很多,但其中有些不符合国家语言文字的规范。例如,各种各样的汉字拆分方式开展的万“码”奔腾地大比拼,虽然都能解决汉字的键盘输入问题,但它们对汉字的不规范和无序拆分已经使汉字文化受到污染、干扰和破坏,贻害无穷。为此,我国从20世纪90年代中期开始加快了语言文字和中文信息处理领域的立法和国家标准、规范的制定。

已经公布的与汉字键盘输入直接相关的国家标准主要有:GB/T 18031《信息技术 数字键盘汉字输入通用要求》、GB/T 19246《信息技术 通用键盘汉字输入通用要求》等(关于数字键盘和通用键盘(又称标准键盘)的定义详见下表3-0);以及与之密切相关的国家标准有:GB/T 25741《信息技术 汉字编码字符集 汉字部首序和笔顺序》、GB/T 15834《标点符号用法》、GB 18030《信息技术 中文编码字符集》等等。

3-0:数字键盘和通用键盘的定义

国家语言文字委员会颁布的规范有:GF 3001《信息处理GB 13000.1字符汉字部件规范》、GF 3002GB 13000.1字符集汉字笔顺规范》、GF 3003《信息处理用汉语拼音方案表示规范通用键盘》。

上述标准与规范将纳入国家技术法规而强制执行。作为产品出售的汉字键盘输入系统,均应遵循上述标准和规范,并将编码层次和软件层次视为统一的汉字键盘输入系统进行性能考核和产品认证。

1、总体性能要求

国家标准GB/T 18031GB/T 19246中关于汉字键盘输入系统的性能指标有3个:

一是易学性。易学性指的是学会使用汉字编码输入系统的时间应尽量短,并应符合使用汉语作为母语的使用者的思维习惯。

二是汉字输入平均码长。汉字输入平均码长的定义是:在输入给定的测试样本时,测得的输入每个汉字的平均击键次数,其计算公式为:

平均码长 = 输入样本的击键次数/测试样本总字数(键/字)

三是重码字词键选率。重码字词键选率的定义是:在输入给定测试样本过程中,通过重码选择键确认的汉字字数与测试样本总字数的百分比,其计算公式为(式中,采用轮换单个显示重码字(词)人工确认输入的汉字计入“重码选择键确认的字数”):

重码字词键选率=(重码选择键确认的字数/测试样本总字数)×100%

下表3-1-1和表3-1-2分别给出了数字键盘和通用键盘采用各种输入方式(拼音、笔画和部件等)时,对于平均码长与重码字词键选率的具体指标要求。

3-1-1:数字键盘对于不同输入编码方式的平均码长与重码字词键选率的指标要求

3-1-2:通用键盘对于不同输入编码方式的平均码长与重码字词键选率的指标要求

作为面向市场的汉字键盘输入系统,应该通过标准符合性测试、产品论证和专家技术鉴定。其中,标准、规范、性能指标测试原则上由政府授权的中文信息处理产品标准符合性检测中心进行。

2、字汇与编码规范

通过键盘(包括数字键盘和通用键盘)编码输入的汉字字汇,应是GB 18030《信息技术 中文编码字符集》中的汉字及标点符号。注意,GB 18030中有实现级别的要求。

欲详细了解中文编码字符集(GB 18030)的请进入

键盘(包括数字键盘和通用键盘)输入编码涉及的规范详见下表3-2,包括汉语拼音、笔画、部件等编码。

3-2:键盘输入编码涉及的规范名称

3、键位的设定

GB/T 18031GB/T 19246中,分别规定了数字键盘和通用键盘的在不同输入方式下的键盘键位的设定要求,若要具体了解的请查阅下附件12

附件 1GB/T 18031-2016《信息技术 数字键盘汉字输入通用要求》

附件 2GB/T 19246-2003《信息技术 通用键盘汉字输入通用要求》

欲进一步了解我国汉字编码字符集介绍的请进入

附录
联合国儿童基金会助学
© 2004-2024 通信人在线 版权所有 备案号:粤ICP备06113876号 网站技术:做网站