面向H.264的嵌入式音视频同步编码技术研究

被引量 : 0次 | 上传用户:jiangmingjie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和计算机技术的快速发展,人们的通信方式已经从传统的单一媒体过渡到语音、文字、图像、视频等相融合的多媒体通信方式。多媒体通信技术是通信技术和多媒体技术有机结合的产物,它集计算机的交互性,多媒体的复合性以及通信网的分布性于一体,打破了传统媒体通信方式的单一性,向人们提供综合的信息服务,并成为通信技术今后发展的主要方向之一。在多媒体通信过程中,多媒体数据在传输、分组、交换等过程中不可避免的会引入信号的延时、抖动,导致媒体间应有的相互关系发生变化。对于那些经过压缩编码的多媒体数据,或者经过不同渠道汇聚到同一点的多媒体数据而言,这种情况更为严重。因此,多媒体通信技术一个很重要的问题就是如何保持各个媒体之间的同步关系。近年来,多媒体同步技术作为多媒体通信中一个极为重要的服务质量问题,越来越受到关注。对于音视频流的多媒体而言,同步系统主要包括五个部分:数据采集、压缩编码、网络传输、解码恢复以及同步播放。音视频同步主要研究在数据采集、发送、传输和接收等过程中对音频信号和视频信号进行同步控制,最终目的是实现客户端音视频的同步播放。目前,音视频同步主要通过时间标签来实现。时间标签是以理想解码器为基础制定的,这个理想解码器假设了通道缓存永不上溢或下溢,对码流的处理也是理想的、瞬时的,然而对一个实际的解码器来说这种理想解码是难以实现的;在国际上,也提出了唇同步的算法,但是只适用于解决视频会议、可视电话等应用中的音视频同步问题,而且这个算法实现起来比较复杂,对嘴部的定位不能自动实现,需要人工参与。为了解决这个长期困扰多媒体通信的关键问题,以陈贺新教授为核心的课题组提出了嵌入式音视频同步编码理论,并对其不断的丰富和发展,取得了显著的成就。在音视频同步控制部分,将音频信号作为隐藏信息嵌入视频流中,然后对嵌入了音频的混合音视频流进行压缩编码,在解码端,根据嵌入算法提取出音频信号。嵌入式同步编码理论在取得了较好压缩编码效果的情况下实现了音视频信号的完全同步传输,并克服了由于信道延时以及音视频不统一编码所带来的接收端接收不同步问题。本研究小组前期已成功的将嵌入式音视频同步编码理论应用到MPEG-2视频标准中,本文在这个基础上研究H.264/AVC视频编码标准下嵌入式音视频同步编码技术。本文以国家自然科学基金国际合作项目“基于音频嵌入视频方式同步视频编码的普适计算”和吉林省自然科学基金项目“普适环境下基于机会模型的信任计算”为依托,详细阐述了音视频同步的核心技术,对目前常用的同步方案进行了对比分析,并对H.264/AVC视频编码标准的核心技术和重要模块进行了系统的、全面的分析研究,为在H.264/AVC视频编码标准下构建音视频同步编码理论奠定了基础。本文通过分析帧内/帧间预测编码、CAVLC(context-adaptive variable-lengthcoding,基于上下文自适应可变长编码)熵编码以及运动估计等H.264/AVC标准中的核心模块,提出了不同的嵌入式音视频同步编码方案。根据嵌入模块的不同可以将同步编码方案分为以下三种:(1)基于模式选择的音视频同步编码方案帧内/帧间预测编码是H.264/AVC视频编码标准中非常重要的一部分,每种编码都包括多种编码模式,而模式选择又是编码过程的核心问题。本文通过分析帧内/帧间预测编码中模式选择算法,利用帧间预测编码模式的多样性,提出了两种基于信息隐藏的嵌入式音视频同步编码方案。把音频信号作为隐藏信息嵌入视频流中,实现了音视频的同步编码,达到了同步传输的目的。这两种音视频同步编码方案,都是利用帧间预测编码模式的多样性,使不同的编码模式携带不同的音频信息,通过对帧间预测编码模式的选择将音频信息嵌入视频流中。这两种方案均能实现音视频的同步编码和解码。在第一种同步方案中,根据要嵌入的音频信息选择最优编码模式,但是这样选出来的编码模式可能不是实际的最优模式,所以会带来一定的嵌入开销,增加一定的编码比特率。在第二种同步方案中,改进了方案一中只利用音频信息选择编码模式,方案先将编码模式进行分组,根据音频信息确定编码模式组,然后利用率失真优化算法从中选出最优编码模式,这样选出来的编码模式更接近于实际的最优模式,对视频质量、嵌入开销以及编码比特率的影响更小。(2)基于CAVLC的音视频同步编码方案本文利用拖尾系数和除了拖尾系数之外的最后一个非零系数,提出了两种基于CAVLC的音视频同步编码方案。在第一种方案中,通过分析CAVLC熵编码中拖尾系数符号位的编码特点,提出基于拖尾系数的嵌入法。由于拖尾系数符号位是定长编码,而且拖尾系数处于整个4×4数据块的高频部分,通过修改拖尾系数的符号位嵌入音频,既不会增加编码比特率,又不会对视频质量造成严重影响。在第二种方案中,利用除了拖尾系数之外的最后一个非零系数进行音频嵌入,由于嵌入算法对非零系数的幅值改变量最大为±1,所以对视频质量和编码比特率影响都较小。(3)基于运动估计的音视频同步编码方案本文分析了1/4像素精度运动估计过程,通过实验得出应用不同的1/4像素点搜索最优匹配点对整个运动估计的影响较小,通过调整1/4像素搜索点,提出了基于运动估计的音视频同步编码方案。利用1/4像素搜索点的运动矢量MV的水平分量MVx和垂直分量MVy的奇偶性,先将1/4像素搜索点分成两组,然后根据搜索组选择的不同将音频信息嵌入视频中。实验表明,在对视频码率和质量影响都较小的情况下实现了音视频的同步编码。为了证明方案的可行性,在H.264编码标准参考C代码JM11.0上实现了本文提出的音视频同步编码方案。使用不同的视频序列对上述方案进行了测试,并用视频主观质量、PSNR值、嵌入开销、编码比特率变化等标准对同步结果做了分析。实验结果表明,本文提出的几种同步方案都实现了音视频的同步编码。方案各具优势,对音视频质量、嵌入开销以及编码比特率影响都较小,不会给传输和存储造成负担。
其他文献
职场着装指在职业场合从事职业行为时,个人选择穿着的服装与人体有机结合而成的—种外观效果。职场着装追求形式美和意蕴美的表达,追求个性化和职业性的统一。长期以来,职场
苏里格第四天然气处理厂的天然气生产及处理过程中所携带的酸气、高矿化度地层水等,对管线产生了不同程度的腐蚀. 通过对重点区域内的管线开展不停输全面检测评价,及时了解管
2012年,程序化购买在中国市场逐渐兴起,随之迅猛发展,各类程序化购买平台兴起,广告主、广告代理公司也纷纷试水。程序化购买兴起,使得广告公司传统的调研方法、用户洞察、媒
在马克思早期思想中,对法哲学的探讨占据重要的位置。其中,"柏林法学建构"的过程在学术界一直存在"失败"与"成功"的争议。反思马克思"柏林法学建构"的过程,最关键的应是其对
目的:通过总结我院一年间小儿神经科门诊癫痫患儿就诊和随访情况的调查,实现建立癫痫患儿数据库,完善对癫痫患儿的管理制度,提高患者的依从性,为癫痫的临床研究提供基本保证。方法
背景与目的:附件包块是妇科常见疾病,包括卵巢良性及恶性肿瘤、卵巢子宫内膜异位囊肿、附件炎性包块、卵巢冠囊肿等,其中卵巢恶性肿瘤死亡率一直居于女性生殖系统恶性肿瘤的首位
长余辉发光材料由于节能、环保以及特殊的余辉性能和市场价值,受到人们广泛关注。目前人们对长余辉材料的应用领域越来越广泛,传统的铝酸盐长余辉发光材料由于其耐水性差、铝
随着我国经济发展和金融体制改革的逐步深入,武威建行作为中国建设银行的一个分支机构,面临的风险和竞争日益多样化和复杂化。因此,提升武威建行的竞争力,使其在与其他国有商
对于电动助力转向系统的研究与开发,控制器是一项关键技术,而控制算法又是控制器的核心。目前,国内外的EPS研究学者主要致力于研究EPS的助力控制方面,很少将整车的操纵稳定性考虑
随着电子信息产业的飞速发展,迫切要求电子元件向小型化,高频化与集成化的方向发展,这对作为电子元件核心的磁性材料提出了更高的要求。目前,由于软磁薄膜在高集成器件(如磁