关于语音编码质量的主观评价方法

浏览：21332 来源：通信人在线日期：2020-03-02

语音编码质量是衡量语音编码优劣的关键指标之一。评价语音编码质量的方法很多，归纳起来可以分成两类，即客观评定法和主观评定法。

欲了解几种低速率语音编码标准的客观评定法和主观评定指标的请进入。

那么对语音编码质量的评定采用主观评定方法，是因为这符合人类听话时对语音质量的感觉。语音主观评价方法种类很多，常分为可懂度(Intelligibility)评价和音质(Quality)评价两类。音质直接反映评听人对输出语音质量好坏的综合意见，包括自然度和可辨识说话人能力等方面。而可懂度则反映了评听人对输出语音内容的识别程度。音质高一般意味着可懂度也高，但反过来却不一定。

一、音质(Quality)评价方法

1、平均主观值法（MOS）

平均主观值（MOS，Mean Opinion Score）法从绝对等级评价法（ACR，Absolute Category Rating）发展而来，用于对语音整体满意度或语音通信系统质量的评价。ACR是用于针对电话通信的总体质量评价。MOS与ACR一样采用5分制的五级的评分标准，对话音质量进行综合评定。从发明电话开始，语音质量的测量方式是主观的，人们摘起一个电话，然后由人耳来感知语音的好坏，这个主观的语音质量测量方法逐步被完善称之为平均主观值MOS方法，定义在ITU-T P.800中。基于该主观评测，人类接听和感知语音质量的行为被调研和量化，接听何种级别质量的语音，得到多少平均主观值MOS，人类将起主要的反映作用。这个语音质量和平均主观值的对应关系为网络的配置、基准和监视提供了标准依据。其MOS评分标准所对应的分值、语音质量级别、失真级别及收听注意力等级（LES，Listening Effort Scale）等详见下表1-1，MOS法的分值范围对应的质量等级名称及质量描述详见下表1-2。

表1-1：MOS法的评分标准

表1-2：MOS法的质量描述

极好的语音音质表示重建语音与原始语音是不可区分的，并且没有感知噪声。相反，极差音质表示有非常厌烦的噪声且表示重建语音有人为噪声。图1-1给出了3类语音编码方法(波形、参数、混合)的比特率与MOS分值的曲线比较。

图1-1：3类语音编码方法的比特率与MOS分值的曲线比较图

ITU-T建议P.800标准规范了几种传输质量的主观和客观评价方法，包括ACR（含MOS）、DCR、CCR等，其中P.800.1给出了MOS的术语；P.800.2给出了MOS的解释和报告。欲详细了解ITU-T建议的传输质量主观评价方法的请查阅附件1-1。

附件1-1：ITU-T建议P.800（08/96）

2、失真平均意见分（DMOS）

失真平均意见分(DMOS，Degradation Mean Opinion Score)是由失真等级评价法(DCR， Degradation Category Rating)发展而来。在对高质量话音通信系统的评价中它比ACR具有更高的灵敏度。在ITU-T P.800建议书的附录D中给出了DCR测试方法，DCR用干扰等级评分，在每次评测之前需有一参考系统，评听人根据参考系统判断被测系统话音失真的大小，判断标准列在表1-1中。

3、判断满意度测量法（DAM）

判断满意度测量（DAM，Diagnostic Acceptability Measure）法是由美国Dynastat公司推出的一种评价语音通信系统和通信连接的主观语音质量和满意度的评测方法。它具有一些独特的优点。首先，它将直接途径与间接途径结合在一起进行主观质量评价。这里所谓的直接途径是指要求评听人针对语音样本给出个人主观感觉而不依赖于人为评价等级的划分；间接途径则是指评听人根据已有的评测标准，脱离开评听人的主观喜好来评分。这样，评听人既可以表达个人主观喜好，又能依据标准对每项指标进行评测。例如，在背景噪声下两名评听人或许对语音样本的整体满意度意见不一致，但他们很有可能会对语音样本中掺入噪声的多少这一指标达成共识。其次，DAM方法要求评听人分别对语音样本本身、背景和其它因素进行评价。一个评听人可将评价过程划分为总共21个等级，其中10级是考虑语音信号的感觉质量，8级考虑背景情况，另外3级是可懂度、清晰度和总体满意度。总之，DAM是对语音质量的综合评价，是在多种条件下对语音质量可接受程度的一种度量，它和DRT一样也采用百分比评分。

二、可懂度评价方法

1、判断韵字测试法（DRT）

判断韵字测试（DRT，Diagnostic Rhyme Test）法是美国国家标准学会（ANSI）制定的标准之一（ANSI S3.2），它是衡量通信系统话音可懂度或者话音清晰度的一种测试方法，它主要用于低速率语音编码的质量测试，因为此时可懂度已成为主要问题。这种测试方法使用若干对（通常为96对）同韵母单字或单音节词进行测试，例如中文的“为”和“费”，英文的“veal”和“feel”等。测试中让评听人每次听一对韵字中的某一个音，然后让他判断所听到的音是哪一个字，全体评听人判断正确的百分比就是DRT得分。通常DRT采用百分比的五级评定标准，其评定标准所对应的语音质量级别等详见下表2。

表2：DRT法的评定标准

在实际通信中，清晰度为50%时，整句的可懂度大约为80%。这是因为整句中具有较高的冗余度，即使个别字听不清楚，人们也能理解整句话的意思。当清晰度为90%时，整句话的可懂度已接近100%。所以对于低速率语音编码，一般要求其清晰度能达到90%以上。

2、改进的韵字测试法（MRT）

改进的韵字测试(MRT，Modified Rhyme Test)也是评测通信系统语音可懂度的ANSI标准之一(ANSI S3.2）。测试材料由6组每组50个同韵母的字或词组成，例如，汉语中“干、捍、烂、旦、半、乱”，英语中“pin、sin、tin、fin、din、win”，主要用于区分起始辅音或末尾辅音。评听人针对所听内容选择出6个词中哪个与之相符。

3、判断中间辅音测试法（DMCT）和判断头韵测试法（DAT）

从DRT还演变出来另外两种测试方法，即判断中间辅音测试(DMCT，Diagnostic Medial Consonant Test)和判断头韵测试(DAT，Diagnostic Auiteration Test)，分别用于听辨中间辅音，如英语中的和“stopper”和“stoker”，和末尾辅音，如英语中的“pack”和“pat”。这二者一般不适用于汉语。

其他的还有拼写字母测试（SpAT Spelling Alphabet Test）、语音平衡字表法(PB， Phonetically Balance Word List）等。

三、其他方法

现在又有许多客观的测量方法已经出现并被应用，诸如：PSQM/PSQM+感知通话质量测量法、PESQ感知评估语音质量测量法（ITU-T P.862）、PAMS感知分析测量法（英国电信）等。PSQM和PAMS测量方法都需要发送一个语音参考信号通过电话网络，在网络的另一端采用数字信号处理的方式比较样本信号和接收到的信号，进而估算出网络的语音质量。语音质量烦人感知评价法 (PESQ，Perceptual Evaluation of Speech Quality)结合了PSQM和PAMS的优势，针对VoIP和混合的端到端应用作了改进，并针对MOS和MOS-LQ计算方法做了修改。该方法使用了各种校正(Alignments)和感性方法，相当准确地匹配了主观MOS分。此外，有必要指出，平均主观值MOS是广泛认同的语音质量标准，因此，无论采用何种方法所有测量方法都必须对应它们的结果对应到最终的平均主观值MOS，以上各种方法均可以最终以MOS值表示。

虽然主观评价方法符合人类听话时对语音质量的感觉，但由于其测试结果的获得依赖于测听者个人的主观感受，所以为了减少个人反应的随意性和不可重复性，一般对测试所用的设备、数据、测试条件及测试人员都有严格的要求，并有繁琐的测听程序规定，非常消耗时间、人力和费用，而且即便如此，测试结果仍然存在着一定的不可重复性，完全相同测试条件下重复测试结果也会有一定的随机波动。所以需要强调的是，无论哪种主观评价方法一般要注意下表3-1所列的问题。

表3-1：主观评价方法一般应注意的问题

欲更多了解语音传输客观评定法和主观评定概念的请进入。

附录

本文的所有附表与附图2017-09-19

附件

附件1-1：ITU-T建议P.800（08/96）

188.55KB