论文部分内容阅读
随着科学技术的发展,人们对于多媒体通信的要求已经从原来的传统平面视频向多视角视频方向扩展。所谓的多视角视频就是在同一时间,从不同角度,对同一场景进行拍摄而得到的一系列视频。例如:常见的电影视频就是一个视角的视频,也称单视角视频;而目前流行的3D电影则是两个视角的视频。众所周知,一个单视角电影视频会占用上百Mbit甚至几个Gbit的内存空间,而一个多视角视频相当于N个单视角视频,那么它所包含的数据量就是相应的单视角视频的N倍,这就使得多视角视频产生的巨大数据量将会对信源的存储和信道的传输造成很大影响。考虑到多视角视频的多台摄像机之间有一定的夹角,得到的多视角视频序列中就会包含一定的重复信息,从而产生了视角间冗余。而视频内部又包含了大量的帧间冗余和空间冗余,因此使得多视角视频的压缩编码技术得以实现。多维矢量矩阵理论将传统的二维矩阵推广到了多维的层面上。由于多维矢量矩阵可以将多视角的多个维度上的数据表示在一个多维的模型中,因此它能够完整地去除各个维度上的冗余,同时也替代了运动估计。而它将多维正交变换操作算子用两个矢量表示,又统一了多维矩阵的运算法则。在运算的过程中,先把每个算子用矩阵具体地表示出来,以方便调用,从而节省了大量的运算时间。本文以多维矢量矩阵理论为基础,首先建立了多视角视频的4D数学模型,然后将傅里叶变换(FT)和多维矢量矩阵离散余弦变换(MVM-DCT)分别与建立的多视角视频模型相结合,推导出了多视角视频意义下的正交变换公式。综合多维矢量矩阵和离散余弦变换的种种优点,推导出的MVM-DCT可以完整地去除空间、帧间和视角间的冗余。导出公式表明,在高维变换域中,多视角视频经过正交变换后的系数能量主要集中在一个折叠平面体上,并且该平面体是沿着时间维度和视角维度都衰减的。公式推导的意义在于揭示了运动矢量、角度变量与高维变换域中系数集中分布的关系。随后,根据推导出来的多视角视频经过正交变换后的系数能量分布规律,本文提出了两种多视角视频的自适应扫描方法,即多视角视频按大小排序自适应扫描(MVASS)和多视角视频按位置排序自适应扫描(MVASP)。MVASS是将变换后的系数按照从大到小进行排序,根据要求保留前面较大的一些系数,对于后面较小的系数全部置零,同时记录非零系数的位置,以便进行解码。这种方法得到了最优的能量集中效率(EPE)。MVASP是根据系数能量集中的平面,尽可能多地保留近平面系数,而对于远平面系数置零。在已知运动矢量的情况下,该方法不用记录近平面系数的位置,因此相对于MVASS,节省了大量的比特率开销。最后在WindowsXP操作系统、Visual C++6.0平台上进行了实验仿真。仿真结果和客观数据都证明了本文理论推导的正确性。在与传统的Zig-zag扫描算法的对比实验中,也充分体现了本文提出的两种扫描方法的优越性,同时进一步证明了本文能量集中分析理论推导的正确性。