论文部分内容阅读
基于内容的视频数据检索,是继基于内容的图像检索之后发展起来的一个新兴研究方向,它为人们检索具有相似内容的视频数据提供了新的手段,而视频数据区别于其它媒体的一个重要特征是它包含有丰富的运动信息,利用这些运动信息来为视频检索服务,对提高视频检索系统的检索性能具有重要的意义。本文着重从解决运动信息提取和表示入手,提出了一套用于基于内容视频检索的运动特征提取方案,作为吉林省科技发展计划项目《面向对象的多媒体数据库在政府政务信息处理中的应用》的一个组成部分。本文主要研究成果总结如下:1. 本文将运动信息分为全局运动和局部运动两类。对于全局运动先用块匹配法求取每个宏块的运动矢量观测值,然后用这些观测值估计全局运动模型参数;对于局部运动,采用 Horn-Schunck 光流分析方法计算稠密光流场。主要步骤如下:(1) 将当前帧与前一帧作块匹配计算,求出运动矢量估计值。(2) 对运动矢量估计值进行坏值剔除,得到全局运动矢量观测值。(3) 建立全局运动模型(本文采用双线性模型),并使用全局运动矢量观测 值对模型参数进行估计。(4) 使用全局运动模型恢复全局运动矢量场。(5) 对于恢复的全局运动矢量场与块匹配得到的运动矢量场进行比较, 找出差异较大的区域作为局部运动区域。(6) 使用光流法对局部运动区域求取稠密运动矢量场。2. 在块匹配算法实现过程中,本文通过分析视频数据的特点和现存的各种算法存在的问题,提出了自适应的块匹配快速搜索算法,它以视频运动的时空相关性为基础,采用以下改进措施:(1) 对初始搜索点进行预测视频图像中空间相邻块与时间相邻块的运动矢量有很强的相关性,在大小与方向上是很相似的,这意味着可以用邻近块的运动矢量来预测当前块的运动矢量。选择一个反映当前块运动趋势的预测点作为初始搜索点,这个预测点比(0,0)点更靠近全局最小点,使得基于中心倾向的块匹配算法的搜索速 - I -<WP=77>摘 要度更快和准确性更好。本文选取(0,0)矢量MV0、与当前块相邻的左方、上方、右上方运动矢量MV1、MV2、MV3、前一帧(t-1 时刻)的对应块运动矢量MVt-1,定义了一个候选集A。搜索的第一步就是从A中挑选一个最佳候选点当作预测点,再以该点为搜索中心进行后续的搜索。 (2) 根据运动类型选择合适的搜索模板 在各种搜索模板中,菱形确有其独特的优点。同 DS 算法一样,本文也采用大小两种菱形搜索模板 LDSP 和 SDSP,其中 LDSP 用于在大范围内进行快速定位,SDSP 用于在小范围内的微调。与 DS 算法不同的是,本文考虑让 SDSP 也能像 LDSP 一样移动,并根据当前块的运动等级来选择最初的大小模板,运动等级通过预测点的运动矢量估计得到。 (3) 制定有效的搜索终止准则 本文通过考察时间和空间相邻块的SAD的分布,发现虽然空间相邻块的SAD的分布在数值上没有很明确的相关性,但当前块的SAD与前一帧同一位置块的SAD间存在着一种数值上的相关关系,为此,本文算法采用以参考帧同一位置块的SAD乘以某个系数作为搜索终止判别准则的阈值。这种方法不受视频运动类型的影响,具有较强的自适应性,能准确确定恰当的阈值使搜索过程适时终止。为加快搜索过程本文算法采用了二级终止准则:若SAD < T1表明搜索结果已经足够精确,可立即终止搜索过程;若T1≤ SAD < T2表明搜索结果尚可,只需在小范围进行微调于是将搜索模板从LDSP转为SDSP。 实验表明该算法在大大提高搜索速度的同时能够获得几乎与全搜索算法相同的 PSNR。 3. 在用块匹配得到的运动矢量场对全局运动模型参数估计时,由于与摄像机运动不符的前景物体运动的影响及块匹配在低纹理区域出现的随机错误,所求得的运动矢量观测值可能存在较多的异常数据,而异常数据对于最小二乘估计的影响较大,因此在进行模型参数估计前必须先剔除异常数据。我们采取以下措施来剔除异常数据: (1) 剔除宏块 SAD 太大的数据 SAD 越大说明匹配程度越低,那么与此对应得运动矢量估计值的可靠性越低,因此我们定义了一个阈值,当某个运动矢量估计值对应的 SAD 大于该阈值时,即认为该估计值不可靠,应该剔除该数据。 - II -<WP=78>吉林大学硕士学位论文(2) 剔除宏块纹理太低的数据对于图像低纹理区域块匹配将出现随机错误,而对应的 SAD 可能并不大,甚至较小,此时第一种措施无法剔除此类异常数据,在此我们使用宏块的灰度方差 来衡量纹理程度的大小,当σ 较小时,认为该块纹理不明显, σ 2 2因此该块的运动矢量估计值不可靠,应该剔除。(3) 迭代法剔除其它异常数据对于与摄像机运动模型不符的前景物体运动的影响以及其它异常数据,我们在最小二乘估计的基础上,加入迭代的异常数据剔除算法,即每次迭代时先计算估计数据集合中的运动矢量与前次估计得到的全局运动模型恢复出的矢量的误差E ,然后以平均误差Eavg 为阈值剔除那些误差E > Eavg 的数据,该算法对于场景中有较多的运动物体时也有较好的适应性。