论文部分内容阅读
随着新兴多媒体通信业务的发展,三维视频极大地丰富了现有多媒体的表现形式,给用户带来了全新的立体视觉体验和强烈的视觉冲击,引领着未来多媒体技术的前进趋势。三维视频多为“多视点纹理+深度”立体视频格式,由于视点和深度图的增加,三维视频数据量呈几何倍数的增长。为了缓解三维视频在压缩、传输以及存储中的压力,对三维视频高效压缩精确重构的任务迫在眉睫。深度图像能够有效表达三维场景中物体的深度信息,且在三维视频数据量中的占据不可忽视的比例。本文充分考虑深度图像的特点,针对目前三维视频在发展过程中遇到的困难,展开了深度信息的有效压缩编码课题的研究,完成的工作主要包括:(1)本文考虑到深度图在大多数应用场景中采用下采样/上采样框架作为预处理和后处理,提出了基于块级熵的深度图自适应采样框架。该方案从深度图自身的特点和信息熵的本质出发,根据图像块的熵值自适应地分配采样率,着重保护深度图的边界不受破坏,使得在平均采样率较低的情况下能够尽可能地提高图像的重构质量,以确保重构的深度图像仍然能够提供可靠的三维立体视觉效果。(2)针对标准视频编码在无线传感网络的发展过程中遇到的阻力,在充分考虑了视频帧结构特征的基础上,提出了基于熵分类字典学习的分布式视频压缩感知视频编码方案。在该方案中分布式视频压缩感知(Distributed Compressive Video Sensing,DCVS)可以化解编码端的复杂运算,字典学习可以有效地对信号进行稀疏表示提高信号重构精度,本文提出的基于信息熵的分类字典学习算法,学习得到的字典使得每一类图像块都能达到较高的稀疏表示程度,从而更加精准地恢复视频,提高视频的重构质量。(3)由于在DCVS框架中,图像分组(Group of Pictures,GOP)直接决定着字典训练的样本,因此GOP分组间接影响视频序列的重构精度。GOP组长过小,则会造成资源的浪费;组长过大,则会造成CS帧在解码端重构时精度下降。针对这一矛盾,提出了分布式压缩视频编码的动态GOP分组算法研究,利用互信息量进行动态GOP分组,提取具有代表性的关键帧,使得分组更加合理,从而使得训练的字典能够提高重构精度。本方法尤其适用于场景变化较多的视频。