论文部分内容阅读
多视点视频具有灵活的可交互性、可编辑性和高度的立体临场感,带来更加生动的视觉感受,越来越受到人们的青睐以及工业界、学术界的重视,逐渐成为下一代多媒体的主流研究方向。但是多视点视频成倍增长的数据量为其存储、网络传输带了巨大的挑战,极大地限制了多视点视频走向实际应用。因此旨在降低海量数据的存储、传输比特数的多视点视频编码技术一直是多视点视频技术领域内的研究重点和热点。本学位论文的研究内容是基于内容的多视点视频编码技术,引入视频运动对象、视频人眼感兴趣区域等要素辅助编码,提高编码效率。取得的主要研究成果包括:(1)多视点视频具有深度信息,而且深度信息十分接近于语义信息,有利于视频对象检测。利用这一特性,本学位论文提出了基于多视点视频深度图的运动对象检测算法。该算法将时间连续的深度图序列进行水平和垂直两个方向上的时间-空间转换,得到新的连续深度图序列。在转换后序列的图像的垂直方向上,原视频运动部分将会呈现出不规则的轮廓线,而静止部分将呈现出直线。因此时间域的运动信息转变成了图像空间域信息,此时一副转换后的图像中不仅有深度信息,还具有运动信息。利用动态阈值对此转换后的图像序列二值化后,进行重建和后处理得到运动对象掩膜。实验结果表明,此算法能较好地检测出视频运动对象。(2)提出了一种基于运动对象检测的多视点视频编码快速算法。在多视点视频编码中,视频图像的运动对象部分和非运动对象部分会有不同的编码特性分布,运动对象部分往往会选择比较耗时的编码策略作为其最优编码策略,而非运动对象则相反。本学位论文从B帧中运动对象和非运动对象最优宏块模式和最优参考帧方向选择的不同这个角度出发,改进了编码策略,节省编码时间67%左右,而几乎没有影响率失真性能。(3)提出了一种基于感兴趣区域的多视点视频编码码流分配算法。大量的人类视觉生理学、心理学研究结果表明,人眼对视频图像中的不同内容并非一视同仁,而是表现出选择性和迁移性,视觉掩蔽效应使人眼难以觉察视频图像中人眼不感兴趣区域发生的某些变化。在此理论基础上,本学位论文根据自底向上的视觉模型,结合颜色、灰度、运动、方向、深度等信息区别视频图像中的人眼感兴趣区域,并且引入视觉优先权值的概念。不同的感兴趣区域具有不同的视觉优先权值,权值越大,则表示人眼对该区域越感兴趣,那么编码时应分配更多的码流。实验结果表明,此算法能有效地节省码流(相比较与JMVM7.0节省码流达到18%~34%),而且与原编码算法相比,没有影响到视频图像的主观质量。