论文部分内容阅读
随着信息技术和计算机技术的快速发展,人们的通信方式已经从传统的单一媒体过渡到语音、文字、图像、视频等相融合的多媒体通信方式。多媒体通信技术是通信技术和多媒体技术有机结合的产物,它集计算机的交互性,多媒体的复合性以及通信网的分布性于一体,打破了传统媒体通信方式的单一性,向人们提供综合的信息服务,并成为通信技术今后发展的主要方向之一。在多媒体通信过程中,多媒体数据在传输、分组、交换等过程中不可避免的会引入信号的延时、抖动,导致媒体间应有的相互关系发生变化。对于那些经过压缩编码的多媒体数据,或者经过不同渠道汇聚到同一点的多媒体数据而言,这种情况更为严重。因此,多媒体通信技术一个很重要的问题就是如何保持各个媒体之间的同步关系。近年来,多媒体同步技术作为多媒体通信中一个极为重要的服务质量问题,越来越受到关注。对于音视频流的多媒体而言,同步系统主要包括五个部分:数据采集、压缩编码、网络传输、解码恢复以及同步播放。音视频同步主要研究在数据采集、发送、传输和接收等过程中对音频信号和视频信号进行同步控制,最终目的是实现客户端音视频的同步播放。目前,音视频同步主要通过时间标签来实现。时间标签是以理想解码器为基础制定的,这个理想解码器假设了通道缓存永不上溢或下溢,对码流的处理也是理想的、瞬时的,然而对一个实际的解码器来说这种理想解码是难以实现的;在国际上,也提出了唇同步的算法,但是只适用于解决视频会议、可视电话等应用中的音视频同步问题,而且这个算法实现起来比较复杂,对嘴部的定位不能自动实现,需要人工参与。为了解决这个长期困扰多媒体通信的关键问题,以陈贺新教授为核心的课题组提出了嵌入式音视频同步编码理论,并对其不断的丰富和发展,取得了显著的成就。在音视频同步控制部分,将音频信号作为隐藏信息嵌入视频流中,然后对嵌入了音频的混合音视频流进行压缩编码,在解码端,根据嵌入算法提取出音频信号。嵌入式同步编码理论在取得了较好压缩编码效果的情况下实现了音视频信号的完全同步传输,并克服了由于信道延时以及音视频不统一编码所带来的接收端接收不同步问题。本研究小组前期已成功的将嵌入式音视频同步编码理论应用到MPEG-2视频标准中,本文在这个基础上研究H.264/AVC视频编码标准下嵌入式音视频同步编码技术。本文以国家自然科学基金国际合作项目“基于音频嵌入视频方式同步视频编码的普适计算”和吉林省自然科学基金项目“普适环境下基于机会模型的信任计算”为依托,详细阐述了音视频同步的核心技术,对目前常用的同步方案进行了对比分析,并对H.264/AVC视频编码标准的核心技术和重要模块进行了系统的、全面的分析研究,为在H.264/AVC视频编码标准下构建音视频同步编码理论奠定了基础。本文通过分析帧内/帧间预测编码、CAVLC(context-adaptive variable-lengthcoding,基于上下文自适应可变长编码)熵编码以及运动估计等H.264/AVC标准中的核心模块,提出了不同的嵌入式音视频同步编码方案。根据嵌入模块的不同可以将同步编码方案分为以下三种:(1)基于模式选择的音视频同步编码方案帧内/帧间预测编码是H.264/AVC视频编码标准中非常重要的一部分,每种编码都包括多种编码模式,而模式选择又是编码过程的核心问题。本文通过分析帧内/帧间预测编码中模式选择算法,利用帧间预测编码模式的多样性,提出了两种基于信息隐藏的嵌入式音视频同步编码方案。把音频信号作为隐藏信息嵌入视频流中,实现了音视频的同步编码,达到了同步传输的目的。这两种音视频同步编码方案,都是利用帧间预测编码模式的多样性,使不同的编码模式携带不同的音频信息,通过对帧间预测编码模式的选择将音频信息嵌入视频流中。这两种方案均能实现音视频的同步编码和解码。在第一种同步方案中,根据要嵌入的音频信息选择最优编码模式,但是这样选出来的编码模式可能不是实际的最优模式,所以会带来一定的嵌入开销,增加一定的编码比特率。在第二种同步方案中,改进了方案一中只利用音频信息选择编码模式,方案先将编码模式进行分组,根据音频信息确定编码模式组,然后利用率失真优化算法从中选出最优编码模式,这样选出来的编码模式更接近于实际的最优模式,对视频质量、嵌入开销以及编码比特率的影响更小。(2)基于CAVLC的音视频同步编码方案本文利用拖尾系数和除了拖尾系数之外的最后一个非零系数,提出了两种基于CAVLC的音视频同步编码方案。在第一种方案中,通过分析CAVLC熵编码中拖尾系数符号位的编码特点,提出基于拖尾系数的嵌入法。由于拖尾系数符号位是定长编码,而且拖尾系数处于整个4×4数据块的高频部分,通过修改拖尾系数的符号位嵌入音频,既不会增加编码比特率,又不会对视频质量造成严重影响。在第二种方案中,利用除了拖尾系数之外的最后一个非零系数进行音频嵌入,由于嵌入算法对非零系数的幅值改变量最大为±1,所以对视频质量和编码比特率影响都较小。(3)基于运动估计的音视频同步编码方案本文分析了1/4像素精度运动估计过程,通过实验得出应用不同的1/4像素点搜索最优匹配点对整个运动估计的影响较小,通过调整1/4像素搜索点,提出了基于运动估计的音视频同步编码方案。利用1/4像素搜索点的运动矢量MV的水平分量MVx和垂直分量MVy的奇偶性,先将1/4像素搜索点分成两组,然后根据搜索组选择的不同将音频信息嵌入视频中。实验表明,在对视频码率和质量影响都较小的情况下实现了音视频的同步编码。为了证明方案的可行性,在H.264编码标准参考C代码JM11.0上实现了本文提出的音视频同步编码方案。使用不同的视频序列对上述方案进行了测试,并用视频主观质量、PSNR值、嵌入开销、编码比特率变化等标准对同步结果做了分析。实验结果表明,本文提出的几种同步方案都实现了音视频的同步编码。方案各具优势,对音视频质量、嵌入开销以及编码比特率影响都较小,不会给传输和存储造成负担。