论文部分内容阅读
随着宽带传输网络的日益完善和视频软、硬件处理技术的快速发展和广泛应用,尤其随着WEB2.0技术的快速发展,使得网络视频内容呈爆炸性增长的同时也伴随着产生了大量的近重复视频。大量近重复视频的产生给版权保护、视频内容监管和视频搜索引擎结果排序等多方面带来技术性的挑战。在此背景下,基于内容的近重复视频检测技术应运而生。本文对目前主要的近重复视频检测技术进行了总结。尽管这些方法有各自的应用场景,其技术细节也不仅相同,但其检测流程可以用四个主要的步骤进行概括:1)抽取视频关键帧;2)提取视频关键帧特征;3)执行基于视频关键帧特征的相似性查询;4)在关键帧特征相似性查询结果的基础上执行视频子序列匹配,实现对近重复视频的判别和定位。在这四个步骤中,关键帧的抽取方法已相对成熟,因此,目前对基于内容的近重复视频检测的研究主要集中在稳定的、高区分度的视频特征抽取,高效的特征相似性查询和准确的视频子序列匹配这三个方面。本文对这三方面的相关技术进行了总结,并在此基础上提出了我们的方法。在近重复视频检测中的特征研究方面,本文做了两方面的工作:1)在SIFT(Scale Invariant Feature Transform)特征点集合基础上,提出了利用奇异值分解方法获取SVD-SIFT(Singular Value Decomposition-SIFT)特征。2)对SIFT描述子的描述方法进行了改进,提出了梯度序数特征,简称GOS(Gradient Ordinal Sig-nature)。相比于标准的SIFT描述子,在特征描述能力方面,SVD-SIFT和GOS基本上保存了原始SIFT描述子所具有的尺度不变性、旋转不变性等良好特性。其中GOS还新添了镜像不变特性,具有更好的适应性。但SVD-SIFT和GOS的计算更加简单,维数也大大降低,因而有效提高了系统的检测速度。在近重复视频检测中的关键帧特征相似性查询研究方面,本文在分析排序类特征的一些内在特性的基础上,结合度量空间嵌入理论。提出了一种高效的相似性查询方法,基于固定点嵌入的相似性查询方法,简称FE(Fixed point-based Embedding)。FE源于一个简单的思想:如果原始空间中两个靠得很近的点,经过“嵌入”后在嵌入空间中可能仍然会靠得很近。而FE的收敛性能确保这种假设的成立。通过固定点嵌入后,高维空间中相似的数据点会投影到相同槽中,然后通过建立一个倒排索引结构执行高效的相似性查询。在近重复视频检测中的视频子序列匹配研究方面,本文提出了基于图的视频子序列匹配算法。该方法将基于关键帧特征的相似性查询结果构建成匹配结果图,进而将近重复视频检测转换成了一一个在匹配结果图中查找最长路径的问题。该方法有三个主要优势:1)它能在众多杂乱的匹配结果中找到最佳的匹配序列,有效剔除了某些假“高相似度”匹配带来的噪声,因而它能在一定程度上弥补底层特征描述力的不足。2)由于它充分考虑和利用了视频序列的时序特性,从而具有很高的近重复视频定位准确度。3)它能自动检测出匹配结果图中存在的多条离散路径,从而能一次性检测出两段视频中可能存在多段近重复视频的情形。最后,通过实验对本文提出的方法进行了评价。实验结果表明:本文提出的方法,在单个技术指标方面获得了接近于最好方法的性能。但将这些方法综合应用于近重复视频检测中,获得了更好的表现。