论文部分内容阅读
随着3DTV产品的上市、3D电视频道的开播,3D视频节目源不足的问题已经成为制约3D产业发展的瓶颈。而2D转3D技术正是当前解决这一问题的最有效的方法。本文结合3DTV的应用需求以及电视节目的特点,研究视频2D转3D技术,在正确估计视频深度信息的同时,兼顾所生成3D视频的观看效果,确保2D转3D技术的实用性。文中分别从内容理解、视觉感知原理、视频压缩域分析等几个方面入手,开展2D转3D技术的研究工作。(1)针对当前绝大多数自动的视频2D转3D算法转换生成的3D视频精度较低、视觉效果不好的问题,本文以电视节目中常见的街景场景为例,提出了一种基于场景内容理解的2D转3D方法,通过分析理解场景内各个景物之间的构图关系,准确估计视频的深度信息。该方法首先对街景视频图像分块并提取图像块自身的特征以及邻域联合特征,使用SVM分类器对图像中的景物进行分类识别,分析理解街景场景中景物的组成结构;然后,通过分析相机成像原理给出了场景内地面区域的深度估计方法,并根据景物与地面之间以及各个景物之间的相对位置关系进行深度估计;对于街景中建筑物内部空间跨度大、深度不一致的问题,则依据不同朝向的建筑物面中水平直线段透视投影后的变化,建立相应的特征累积数学模型量化建筑物区域蕴含的直线段特征,再通过动态规划的方法划分识别各类建筑物面,并依据建筑物面的朝向确定每个建筑物面内部的深度信息。实验结果表明,与其它方法相比该方法得到的街景视频深度估计结果更加符合场景内各个景物在真实世界中的深度分布。该方法可以自动完成对电视节目中与街景相关镜头的2D转3D工作。(2)视觉感知原理中,人观看视频时注意力主要集中于前景目标,对视频中背景部分不敏感。基于该理论,文中结合访谈、讲座等电视节目中背景相对稳定的特点,提出了基于视觉感知原理的2D转3D方法,通过对视频前景和背景分别采用不同的策略进行深度估计,有效的解决了视频2D转3D过程复杂、速度慢的问题。该方法首先使用高斯背景模型提取视频中运动的前景目标,并结合视觉注意力模型给出了感兴趣视频前景的定位方法,从而将视频分割为前景和背景分别进行处理。对于视频背景,仅使用基于内容理解的2D转3D方法精确估计关键帧的深度,至于其它帧中的视频背景的深度则通过插值得到。而对于被关注的视频前景,则给出了考察视频空域中前景和背景之间的构图关系以及时域中前景目标的特征变化相结合前景深度估计方法,确保视频中前景目标深度的准确和平滑。该方法在准确估计视频前景深度确保生成3D视频具有较好的观看效果的同时,简化背景区域深度估计的过程,有效的降低了算法复杂度,提高了2D转3D的效率。(3)由于视频大多是以压缩编码的格式进行存储、传输的,面向3DTV终端的2D转3D应用需求,文中提出了面向H.264压缩域的2D转3D方法,直接利用视频压缩域信息将2D视频转换为3D视频。该方法首先对视频压缩域中各宏块的MV进行累积滤波,并利用雅克比矩阵描述全局运动参数和宏块MV之间的关系,使得压缩域中全局运动参数求解过程更加方便,再通过比较局部运动和全局运动之间的差异初步检测运动对象;同时,提出了结合运动特征对宏块DCT系数能量进行投影累积的方法,有效强化了DCT系数特征,并将熵能选取自适应阈值原理应用到压缩域中,检测运动对象的边缘及纹理显著区域;然后给出了一定的逻辑准则将MV和DCT系数的检测结果结合起来,得到视频中运动的前景目标。接着,建立了相应的temporal Snake模型对景物轮廓进行优化,在精确提取景物轮廓的同时,维持景物轮廓的时域稳定性。最后,依据视频中的运动特征并结合景物构图关系估计视频的深度信息。实验结果表明,该方法依据视频压缩域特征进行深度估计,2D转3D速度快、效果较好,可满足诸如3D电视机内部2D转3D嵌入式模块等实时性较高的应用需求。