论文部分内容阅读
视频相似度计算是对两个视频内容的相似程度量化打分,根据分数的高低判断视频内容的相似程度。视频相似度计算可以为基于内容的视频检索及计算机视觉中的目标跟踪提供基础。两个视频的相似程度可以利用关键帧的相似程度近似代替。现存的视频关键帧提取算法存在许多问题,第一如K-means算法中K值、聚类中心都需要预设,预设不合理导致影响实验结果。第二传统算法会导致大量的信息缺失。第三视频中含有大量语义信息,单纯提取底层信息计算其相似度会造成较大误差。本文针对以上不足,引入语义,提出了一种自适应的关键帧提取算法,一种结合运动能量图的低层语义视频相似度计算方法和语义视频相似度计算方法。具体工作如下:(1)提出了一种结合颜色聚类以及内容的自适应视频关键帧提取算法。首先,对镜头进行分割,针对分割后的镜头,提取3通道的颜色信息以及纹理信息并对其进行聚类;针对聚类后的视频帧,计算其局部最大值和最小值,并与平均值相比较记录相匹配的帧的索引;计算帧的信息熵,记录信息熵最大的帧的索引;合并两类帧将其确定为关键帧。该方法有效改善了现有算法提取的关键帧存在冗余的现象,以及传统算法造成的内容缺失。(2)提出了一种针对提取到的视频关键帧的预处理方法,利用加入改进线性拉伸的改进遗传算法对其进行分割,将关键帧分割成目标存在的两部分,降低了图像的冗余,极大程度上保留了目标的内容,缩短后续特征提取的时间。(3)提出了一种融合颜色、纹理和运动特征的低层语义视频相似度计算方法。采用HSV颜色空间,利用MEM-LBP算子提取纹理特征,充分利用深度序列的第三维深度信息,建立深度运动能量图,利用改进LBP算法对其进行编码。(4)提出了一种基于深度学习的高层语义视频相似度计算方法。采用改进的VGGNet深度学习框架,运用框架的倒数第二层即特征提取的最后一层对视频进行特征表达。其中改进的VGGNet-16在于将全连接层尺度由4096降为1024。减少了参数量,降低储存规模,提高了计算速度。