技术基础篇导引

关于VoiceXML介绍

浏览：3946 来源：通信人在线日期：2017-12-09

一、VoiceXML简介

VoiceXML（Voice eXtensible Markup Language）是由VoiceXML论坛制定的通过电话访问Internet网络的标准。1999年3月，由Motorola、Lucent、AT&T和IBM四家公司联合发起成立了VoiceXML论坛，其目的在于为电话和移动设备提供一种便捷的访问Internet网络，获取服务和信息的手段。2000年3月，VoiceXML论坛发布了VoiceXML 1.0标准。5月，W3C（World Wide Web Consortium）接受了VoiceXML1.0；2003年1月，VoiceXML 2.0正式版发布。包括我国华为公司等国内外共有数百家公司支持VoiceXML，Motorola、Lucent等公司已开发出了基于VoiceXML的产品。

VoiceXML是W3C定义的可扩展标记语言（XML）的一种扩展，根据播放的提示信息、口述的命令、要记录和识别的语音或按键音输入，实现人和计算机之间的交互对话。VoiceXML的标准化将简化Web上具有语音响应服务的个性化界面的创建，使人们能够通过语音和电话访问网站上的信息和服务。

VoiceXML的主要目标是希望通过交互式语音界面应用Web上已经有的大量信息，同时VoiceXML希望能够将开发人员从最低级的编程和资源处理工作中解放出来。VoiceXML能够利用人们已经非常熟悉的客户机/服务器方式，将语音服务和数据服务融合起来。

VoiceXML作为一种标记语言，主要有下表1所示的主要特点。

表1：VoiceXML技术的主要特点

二、VoiceXML的结构模型

VocieXML整体结构模型如下图2所示。一个文档服务器比如说一个Web服务器，处理一个来自终端应用的请求，这一请求经过了VoiceXML解释程序和VoiceXML解释程序环境处理。作为响应，服务器产生出VoiceXML文档，在回复当中，要经过VoiceXML解释程序的处理。

图2：VocieXML整体结构模型

执行平台是被VoiceXML解释程序环境和VoiceXML解释程序控制的。例如，在一个交互式语音应答应用中，VoiceXML解释程序环境能可靠地监测到呼叫，获得初始的VoiceXML文档，并且回答这一呼叫，在回答之后VoiceXML解释程序引导这一对话。执行平台产生事件响应用户的动作（说话或者字符输入）和系统事件（例如计时器溢出）。这些事件中的一部分依照相应的VoiceXML文档按照VoiceXML解释程序的解释加以执行，其他的被VoiceXML解释程序环境控制。

VoiceXML解释程序是一个计算机程序，它解释一个VoiceXML文档，引导和控制用户与执行平台之间的交互作用。VoiceXML解释程序环境也是一个计算机程序，用一个VoiceXML解释程序解释一个VoiceXML文档，并且可以与执行平台相互作用而与VoiceXML解释程序无关。

执行平台是指一个能支持VoiceXML定义的交互作用的计算机。

音的输入和音频输出，包括合成语音的输出（TTS，text to speech）、音频文件的输出、话音输入的识别（ASR，automated speech recognition）、DTMF输入的识别、语音输入的录音、电话功能像呼叫转移等。

三、VoiceXML的基本概念

首先举一个简单的例子：

<?xml version="1.0"?&gt；

<vxml version="1.0"&gt；

<form&gt；

<block>Hello World!</block&gt；

</form&gt；

</vxml&gt；

这是一个简单的VoiceXML文档，执行时输出Hello World!的合成语音。<vxml>可以看作一个包含会话的容器，所有的VoiceXML文档都是由一系列会话构成的。一个VoiceXML文档（或称为请求的一组文档）构成了一个对话式的有限状态机。用户总是处于某一对话状态（或称为会话）。每一个会话决定要转移到的下一个会话。转移由URIs指定，URIs定义下一个要使用的文档和会话。当一个会话没有指定后继者或指明退出对话状态时操作才会终止。

VoiceXML中的基本概念主要有：

1、会话和子会话：VoiceXML中定义了两种类型的会话，表单（forms）和选单（menus）。表单定义了一个获取一组字段变量的值的交互过程。每一个字段可以指定一个文法，定义了该字段的允许的输入值。选单提供选项供用户选择，然后根据选择的结果转移到另一个会话。

子会话像函数调用，它引起一个新的交互作用并且返回给上一层的表单。局部的数据，文法和状态信息被保存，当返回到调用文档时可以使用。例如，子会话可以用于创建一个在数据库查询时需要的确认序列；创建在单一请求中的多个文档共享的一批组件；或创建一个在多个请求中共享的可重用的会话库。

2、会话期：会话期从用户与VoiceXML解释程序语境交互开始，持续进行文档的装载和处理，直到由用户，文档或解释程序环境发出终止请求才结束。

3、请求：一个请求就是一组共享同一个请求根文档的文档。在一个请求中，无论何时用户与文档交互，请求根文档总是被加载。当用户在同一个请求中的不同文档间转换时，请求根文档总是被加载，只有用户转换到别的请求中的文档时请求根文档才被卸载。请求根文档被加载后，它的变量作为请求变量被其它文档使用，而且它的文法在请求的持续时间一直起作用。

4、文法：每一个会话有一个或多个语音和（或）DTMF文法。在定向对话应用中，一个会话的文法只有在使用者与此会话交互时才起作用。在混合主动式对话中，机器和用户交替控制下一步的操作，一些会话被标记以使它们的文法（如侦听呼叫）即使当用户在同一文档的其它会话时也起作用。在这种情况下，如果用户进行的操作与另一个会话的有效文法匹配，执行就会转移到另一个会话。混合主动式对话增加了语音应用的适应性和能力。

5、事件：VoiceXML提供一种表单填充机制处理"正常"的用户输入。另外，VoiceXML也定义了处理异常事件的机制。如用户在一定时间内没有作出应答，请求系统帮助等情况下平台会产生事件。如果解释器在VoiceXML文档中发现语义性错误也会产生事件。

6、链接：链接支持混合主动式对话，当用户在链接的作用范围时它指定的文法就起作用。如果用户的输入与链接的文法匹配，控制就转移到链接的目的URI。<link>可以用来产生一个事件跳转到目的URI。

欲进一步了解交换设备呼叫处理能力的请进入。

附录

本文的所有附表与附图2017-12-09