语音编码性能评价指标的概念

浏览：14654 来源：通信人在线日期：2020-03-02

语音编码所要解决的基本问题，是在给定的编码速率条件下，如何得到尽可能好的重建语音质量（或称编码质量），同时应尽可能减少编译码算法的复杂度和时延，并使编译码系统有较好的坚韧性；或者是在给定编码质量、编译码复杂度和时延以及坚韧性要求的条件下，如何尽可能降低语音编码所需的速率等。这五个方面的要求，就是衡量语音编码性能的主要指标。应该指出的是，这五个方面的要求（或称五个质量指标）有时是互相矛盾的，它们之间有着紧密的联系，是互相影响的，在不同的应用中，对各个指标要求的侧重点也有所不同。

1、编码速率

编码速率直接反应了语音编码对语音信息的压缩程度。编码速率又称为比特率，它是指一个编码器的信息速率。在语音通信系统中，它决定了编码器工作时占用的信道带宽，低速率语音编码可以占用较少的信道带宽。编码速率可以用“比特/秒”（b/s）来度量，它代表了编码的总速率，一般用V表示。编码速率也可以用“比特/样点”(b/p)表示，它代表了平均每个语音样点用多少比特编码，一般用R表示。V和R可以通过取样频率联系起来：

V = R f_S

其中的取样频率f_S通常根据Nyquist定理由信号带宽决定。目前国际上各种数字声频信号常用的带宽及取样频率由表1给出。

表1：几种数字声频带带宽及取样频率

显然，平均每样点比特数R越高，语音波形或参数量化就越精细，话音质量也就越好，相应地对传输带宽或存储容量的要求也就越高。在波形编码中，为了获得高质量的重建话音，一般取R≥2（ΔM除外），而在参数编码中R可以低到0.25甚至0.1以下。当然在后一种情况下重建语音只能保持一定的可懂度，而反映讲话人特征的信息和语音的自然度就会有较大的损失。

2、合成语音质量

合成语音质量可以说是语音编码性能的最根本指标。评价合成语音质量的方法很多，多年来人们提出的许多方法归纳起来可以分为两类：主观评价方法和客观评价方法。

1）主观评价方法

主观评价方法是在一组测试者对原始语音和合成语音进行对比试听的基础上，根据某种预先约定的尺度来对失真语音划分质量等级，它比较全面地反映了人们听音时对合成语音质量好坏程度的一种主观印象。主观评价方法符合人类听话时对语音质量的感觉，目前得到了比较广泛的应用。常用的主观评价方法有3种：平均意见得分(MOS)、判断韵字测试(DRT)和判断满意度测量(DAM)。

欲详细了解语音编码质量的主观评价方法的请进入。

2）客观评价方法

针对主观评价方法的不足之处，基于客观测度的语音客观评价方法相继被提出。客观评价必然要借鉴主观评价的那种高度智能和人性化的过程，但是不可能找到一个绝对完善的测度和十分理想的测试方法，只能尽量利用所获信息做出基本正确的评价。一般地，一种客观测度的优劣取决于它与主观评价结果在统计意义上的相关程度。客观评价方法建立在原始语音和合成语音的数学对比之上，大多数客观评价是用数值距离或者描述听觉系统如何来感知语音质量的模型来量化语音质量的。图2给出了语音客观评价方法的基本过程。由图2不难看出，输入语音(原始语音)与输出语音(合成语音)之间的同步是非常重要的，它也是决定客观评价结果正确与否的关键因素，在实际操作过程中，需要认真对待。

图2：语音客观评价方法的基本过程图

目前所用的客观评价方法可以分为时域客观评价和频域客观评价两大类。时域客观评价测度定义为被测系统的输入语音与输出语音在时域波形比较上的失真度。因此，这种评价方法仅适用于波形编码系统。此类方法中的结果取值越大，说明被测语音质量就越好。时域客观评价常用的方法有信噪比(SNR)测度和平均分段信噪比(segSNR)测度等。

频域客观评价测度一般有距离测度、LPC倒谱距离测度、巴克谱失真测度(BSD)和MEL谱测度等。在这类测度中，若测度计算结果取值越小，说明合成语音与原始语音越接近，即被测语音质量就越好。频域客观评价方法最常用的就是巴克谱失真测度(BSD)，因为它考虑了人耳的多种听觉特性。巴克谱失真测度考虑了人耳的多种听觉特性，在评价速率较高的波形编码算法时和人的主观感觉比较符合，但在参数编码算法和混合编码算法的评价中仍然不能很好地表征人耳对语音的感知。因此人们提出了改进的巴克谱失真测度(MBSD)来对合成语音质量进行客观评价。MBSD基于人耳的听觉掩蔽效应，更好地表征了人耳对语音的感知，而且它与MOS评分有很高程度的相关性，因此得到了广泛应用。

3、编解码延时

编解码延时一般用单次编解码所需时间来表示。在实时语音通信系统中，语音编解码延时同线路传输延时的作用一样，对系统的通信质量有很大影响。过长的语音延时会使通信双方产生交谈困难，而且会产生明显的回声而干扰人的正常思维。因此，在实时语音通信系统中，必须对语音编解码算法的编解码延时提出一定的要求。对于公用电话网，编解码延时通常要求不超过5ms~10ms，而对于移动蜂窝通信系统，允许最大延时不超过100ms。

4、算法复杂度

算法复杂度包括两个方面，运算复杂度和内存要求，它主要影响到语音编解码器的硬件实现，也决定了硬件实现的复杂程度、体积、功耗以及成本等。对于一些复杂的语音编码算法，运算复杂度一般用处理每一秒钟信号样本所需的数字信号处理(DSP)指令条数来衡量其计算复杂度，可用单位“兆次操作/s”(兆次/s)或“兆条指令/s”(兆指令/s)等来对运算复杂度进行描述。内存则用单位“字节(B)”来衡量。在讨论算法复杂度时应该考虑算法可扩展性。它是指一种语音编码算法不仅能解决当前的实际应用，而且可以兼顾将来的发展，随着运算器件性能的增强，算法稍加修改就可获得更高的语音质量，这就是要求算法具有可扩展性的意义。

5、其它性能

语音编码的其它性能还包括语音编码的顽健性、对多语种的通用性、抗随机误码和突发误码能力、抗丢包和丢帧能力、误码容限、对不同信号的编码能力等。随着基于分组交换语音业务的发展，这些性能的研究也已提到议事日程上来。

编码器的顽健性是通过取多种不同来源的语音信号进行编、译码，并对输出语音质量进行比较测试得到的一种指标。例如，取不同类型的发音人的语音、各种背景噪声下的语音、用各种麦克风或不同频响的放大器录制的语音、非语音声音等。编码器是要用于通信系统的，必须能适应各种各样的情况。多级编译码情况下的输出语音质量也是衡量编码器顽健性的一项重要指标。在逐步发展起来的数字通信网中，既有数字电话又有模拟电话，从端到端的路由中，会出现“模拟语音信号-语音压缩编码-译码还原为模拟语音信号-语音压缩编码-译码还原为模拟语音信号”这样一种异步级联多级编码的情况，在这样的情况下，语音编码器的顽健性就显得十分重要。

误码容限也是一个应该考虑的性能指标，由于话音业务的实时性，不能像电报业那样检错重发，因此在编码器中即使采取了一些误码保护措施，也仍然难免存在误码。通常要求语音编码器在1%的误码率下仍然能提供可用的输出语音。

总的来说，一个理想的语音编码算法应该是低速率、高合成语音质量、低时延、低运算复杂度并具有良好的编码顽健性、可扩展性的编码算法，由于这些性能之间存在着互相制约的关系，实际的编码算法都是这些性能的折衷。事实上，正是这些相互矛盾的要求，推动了语音编码技术的不断发展。

欲进一步了解几种语音编码主观评价与客观评价指标的请进入。

附录

本文的所有附表与附图2017-10-16