欢迎来到通信人在线![用户登录] [免费注册]

关于多媒体同步

浏览:4307  来源:通信人在线  日期:2008-03-20
 

一、导言

目前多媒体系统的特点在于综合了计算机合成、存储、通信、处理,以至多媒体的再现演示。其中,值得研究的一个关键问题,即是各种多媒体数据信号的同步问题。

不妨先以电影中出现的现象为实例来加以体会或理解,电影胶片的画面边缘,制有音迹,在电影放映过程中,在映像投射在影幕的同时,音迹也由放映机进行光电转换,还原出声音,影片制作时,画面与音迹同存于一个胶片框内,而放映时又同时“表现”出来,这就油然完成了图像和声音两媒体对象的严格同步。而在译制片中,配音演员要注意观察影片中演员的嘴型动作来配台词,这就是所谓的“唇同步”(Lip Synchronization),之中反映了视频媒体与音频媒体之间在时间上的相互依存关系。类似地,影片中还有一些例子,如电影胶片两边的齿孔,与放映机的电机配合,按照一定的速度运转,速度的快慢会立即相应地影响音调的高低,当然影片中画面所受的影响并非那么灵敏;由于影片胶片的长度所限,两台放映机交错放映,这时两者的衔接,要由放映员根据银幕上出现的用于“同步”的“白点”来进行……

在多媒体系统中,同步的内涵则要复杂得多。一般说来,同步可认为是相对时间而言,而更为广义地认为,在多媒体系统中应包含多媒体表现的内容、空间和时间关系。这里需区分时相关媒体和时无关媒体。时相关媒体流中的连续单元之间有相应的时间关系,如视频信号包括一定数量的帧,每一帧均具有固定的时间段。时无关媒体是一些诸如文本、图形等类的媒体,其“表现”的意义,并不取决于时间段。在时相关媒体和时无关媒体之间则往往存在相应的内容上的同步关系,如图表与语音合释,图像或语音与旁白文字注释等。当然从另一角度上看,这两者之间的内容关系也反映两者在时间段的关系。多媒体信息间的空间意义也可有多种反映,如某可视媒体在显示器屏幕上的显示位置,先后出现的关系等;而对于声音这一不可视媒体,则安排它在听觉空间与哪一些可视媒体同步。可视媒体之间也有空间关系,如表现花园别墅的画面,可从大门开始,然后拉伸镜头,反映建筑物与地面之间类似“上下文”的关系。

在多媒体系统中,同步的内涵还应含有多层次或多级的划分。诸如,用户级同步、复合对象内部同步、系统同步等。从多媒体节目的创作到演示,涉及了一系列的过程,其中有节目的脚本、拍摄、数据取样处理,媒体的存储、传送、演示再现等等,在其中,应指出信息交互。用户可以控制和使用信息,如反复调用有兴趣的进球,冲刺画面,快速掠过不感兴趣的部分等等,用户级同步是交互性参与的同步,在脚本的制作时就应考虑用户的需求。

媒体的处理或传送是以信息元(BIUBasic Information Unit),也称数据逻辑单元(LDULogic Data Unit)为基本单位,媒体对象可以划分为若干不同的信息元,并依次序进行串行通信,自然,在再现时也会有媒体间的同步问题。

此外,在通信中媒体不可避免地受到干扰,产生延迟或抖动,乃至LDU次序的变化等,这就需引入系统同步的概念。

总之,多媒体的同步是指协调时序关系的机制,而空间通常可考虑融合入时间概念之中,如是同步的方法主要是基于时间上的方式。

二、同步的分类

同步的分类,包含有内容同步、空间同步和时间同步,它们分别描述了媒体对象内部或媒体对象之间在内容、空间和时间上的关系。

内容同步定义了媒体对象的内容或数据和表示规则或表现形式之间的依赖关系。比如说,数据的表格和反映数据的图形,两者均取于同一组数据,而表现方式不同;又比如说,有两种不同的图形,如直方图和饼图,其演示形式不同,但也是基于同一组数据。因此两者在内容上相同,只是表现方式不同,或者认为是同一内容,有不同的描述方式。

在多媒体文件的制作中,内容同步的确立是有用的。可以建立表示数据与视图之间映射关系的“对象接口”,可以输入相关的数据而不直接去编辑视图,自动生成相应的图表、图形等视图。这也拓展了数据库在多媒体系统中的应用。

空间同步一般认为是布局关系,也就是在多媒体的表现中,在某一时刻多媒体对象的空间位置关系。空间关系可以是二维或者是三维的。桌面出版物中,空间关系常用格式或框架来表达,这些框架结构常赋予某一个位置,某一个显示窗口及相应的面积。用户可以根据需要,移动窗口,也可放大或缩小窗口,进行相应的编辑操作。在三维显示系统中,可进行三维的投影或全息显示。三维方式一般采用了重叠窗口方式,如对立体声的音响输出可进行布局;又如在会议电视中,与会者的座位,及音响输出可以进行定位。这样演示显得更加自然逼真。系统应该允许用户创建三维显示,并进行编辑操作。

时间关系定义了媒体对象及媒体对象间在时间上的时间依赖关系。这是媒体间关系的主要方式,在以上所谈的内容关系和空间关系往往也可以归结在时间关系上来描述。

三、同步的分级

1、用户级同步

交互同步(Interactive Synchronization),或“表现”(Presentation)级同步,是最上层的同步。该级同步需从用户的角度出发,来设计模型框架。所设计的模型要能反映和满足用户的交互性,容易为用户所理解,这种模型一般以时间为控制线索。

多媒体的脚本,类似于电影的脚本,对小说的内容,结合了故事情节的交化发展,考虑到何种场景、次序、人物的形象语言等因素,以一个个的镜头来呈现给观众。但是多媒体脚本还应考虑允许用户的交互参与活动。用户可以根据场次的控制,借用菜单选择等具体手法来控制流程,如反复观察某一动作细节,放大局部的图像,掠过用户所不愿意或没有多大兴趣的场面等。诸如在外语教学中,可以反复收听难以理解的听力段落;在欣赏足球比赛的实况转播中,可固定住“越位”或“进球”动作的场面,在了解侦察破案的镜头中,可仔细观察其中的局部细节等等。这种交互性的参与导致了脚本的场次并非按原定的线性关系延续,而可有多条路径。这是多媒体脚本的表现和电影中剧本的表现所不同之处,可以作为多媒体表现的特征。多媒体的表现或演示,相对于电影或电视完全受制于导演的安排而言,允许用户的介入,正是其魅力之所在。用户级的同步扩展了多媒体演示的功能。

2、媒体间同步

媒体间同步(Intermedium Synchronization),或称合成同步,是LDU的合成,或不同媒体类型的数据之间的合成,其中蕴含了空间、时间的合成。

要进行数据传输,必然要把图像、语音、文字等多媒体信息,转换为数据流形式,并依串行方式在通信系统中传送至用户端。LDU作为数据块,其大小与应用有关,可以是一帧、一复帧或分镜头等。在连续的媒体流中LDU播放的时间是相同的LDU之间的时序关系在捕获或生成的过程中业已形成,并要求在播放时得到精确的重现。在连续的LDU之间任何时间的抖动将会影响播放的质量。而与时间无关的媒体没有媒体内部的同步问题,媒体间同步反映了各不同媒体对象之间的同步关系。唇同步是在自然客观的情况中,所获取的视频和音频之间的时间关系。而在很多情况中,各个独立生成的诸如文字、图像、旁白等媒体对象,则是依脚本的要求,来指定这些媒体对象之间的时间关系。

另外,在计算机支持协同工作(CSCWComputer Supported Cooperative Work)中,所有的参加者在自己的桌面上有一个相同内容的窗口,在该窗口中,有一个公用的指针标志,即有一个指针同步(Point Synchronization)。指针同步实质上反映了媒体对象之间在时间上的同步关系。

为了进一步理解媒体间的同步,可以对静态和动态的媒体对象,以及它们之间的同步相合成,作更多的描述。静态和动态是相对于时间轴而言的。若在某个时间段上表现保持不变,则为静态,而在不同时刻表现的内容在不断地变化,则为动态。文字注释属于静态对象,音频和视频则可属于动态对象。对象的合成包含了静态对象和动态对象的三种组合方式,即静态与静态、动态与动态及静态与动态,可分别称之为静态型合成、动态型合成以及混合型合成,静态型的合成对象的表现主要涉及对象各成分之间的空间组织,如黑板与黑板上的粉笔字之间的位置关系;动态型的合成对象的表现主要考虑对象成分之间的时间依赖关系,如运动图像和语音解说及音乐烘托之间的时序关系。而混合型合成对象则需要同时考虑在空间和时间两个方面,如文字与语音的结合。文字的显示有空间关系,而文字的显示与语音播放相匹配,也就是“写到哪儿,念到哪儿”,具有时间上的依存关系。

静态与动态是相对的,静态对象在表现时,由于与动态对象的表现在时间上的关联性,而具有了动态性,而动态对象可以看作是许多静态对象的组合,在动态图像的处理上,动态图像往往作为某一个时刻上的静止图像来进行加工。同样空间合成与时间合成不是相互隔离的,而是统一的。多媒体对象在表现过程中与时间相关,同时在每个表现点上也与空间相关。多媒体之间的合成,或同步,其调度策略是以时间为主线,附加各自的空间。

3、系统同步

系统同步或多媒体内部同步(Intramedia Synchronization)是底层同步。所谓系统同步,是指该层的同步如何根据各种输入媒体对应的系统设备的性能指标来协调实现其上层合成同步所描述的各媒体对象间的时序关系。在单机条件下,同步技术要涉及媒体的存取速度,压缩解压的生成和还原时间、图像的显示和声音的播放等时间因素,而在通信系统中,则要考虑多媒体数据段在传输变换中的延迟、抖动、分组中的时间次序错位、丢失等情况,要考虑不同类型的媒体数据段对于通信中的吞吐量、最大时延、最大抖动、允许误比特率、允许误分组率的不同的实际要求。此外,还要进一步分析研究经过压缩编解码的多媒体数据在数据通信中所受到的影响及其带来的严重性。故而多媒体通信的同步机制是相当复杂的。对于传送多媒体的通信平台,应根据不同媒体对象的需求特点,分析其所需QoS,决定传输策略,安排不同的传输信道,采用合适的通信规约,选择相应的交换方式等等。例如对语音可采取延迟短、延迟变化小的传输方式,而对数据要采用可靠保序的传输方式。在通信中需要认真考虑的多媒体的同步问题,而在用户端的媒体输出时,计算机终端也应考虑协作,承担多媒体的同步问题的处理。

在现实情况中,多媒体通信系统是个资源受限的系统。所谓资源受限表现在以下两个方面。其一通信信道带宽受限,其次是终端计算机存储容量受限。如果这两方面不受限制,同步的情况要好得多。比如说,若信道带宽不受限制,那么就可以比较好地安排各种媒体信息间的关系,各种类型媒体流可以及时到达终端,以便于忠实地再现脚本的内容。而若存储的容量足够大,就可以通过先把所有信息全部接收下来,然后再组织各类媒体数据流的方法实现同步播放。当然,两者不可偏废,若仅仅是容量足够大,而传输带宽不够,在存储器的多媒体数据播送完毕,后续的数据流就不能及时跟上,这就可能出现存储器的“饿死”现象,相当于出现一台放映机放映完毕之后,而另一台放映机没有电影胶片,放出“空片”,从而造成断片现象。若传输带宽非常大,显然是不经济的;存储容量过小,又有可能“拥塞”,尚未输出的部分缓存数据会被覆盖。存储容量对于带宽,或者说是对媒体LDU的先后到达,特别在媒体对象类型不同的情况下,起了补偿,或者说是缓冲作用。

联想会议平板
© 2004-2024 通信人在线 版权所有 备案号:粤ICP备06113876号 网站技术:做网站