论文部分内容阅读
随着视频监控和移动互联网的发展,人类拥有的视频数据量出现爆发式增长。面对海量视频,在基于内容的快速视频搜索、浏览和监控等新兴多媒体服务中,传统视频数据访问和存储形式表现出很大局限性:一方面用户观看原视频需要消耗大量时间,无法快速获取感兴趣的视频内容,另一方面增大了视频网站上的数据存储压力。在这样的背景下,视频摘要技术通过提取长视频中的重要视频帧或片段,组合成较短视频,提供了一种有效且高效浏览和存储视频数据的方式。近年来,视频摘要技术有了很大发展,但视频内容复杂多变、类型较多,很难设计一种通用算法来生成视频摘要。同时,如何从视频中提取出有意义且符合用户兴趣的视频摘要依旧面临着巨大挑战。因此,本文针对多种类型视频展开研究,围绕提升视频摘要算法性能和生成令用户感兴趣的视频摘要,提出了多种视频摘要方法。具体包括以下四个方面内容:1)提出基于稀疏选择和层次聚类的关键帧提取方法。传统方法直接利用稀疏选择模型来提取关键帧,存在字典稀疏性难以保证问题,使得关键帧中存在大量冗余帧。本文利用稀疏选择模型从原始视频中选出数量较多的候选关键帧,而不是直接提取几帧最具有代表性的关键帧,从而克服了稀疏模型的难以保证字典稀疏性问题。其次,通过计算感知哈希互信息作为相似性度量,对候选关键帧进行层次聚类来去掉冗余帧,更准确地提取出最具代表性的关键帧作为视频摘要。2)提出基于内容重要性特征的视频摘要方法。工作1)只关注提取的关键帧能最大化代表原始视频,却忽略了用户感兴趣的视频内容。为了识别出视频中真正令人感兴趣的内容,本文使用两种与图像的令人感兴趣度相关的高级语义特征:图像难忘指数和视频捕捉点,作为内容重要性特征来评价视频帧重要性。首先,本文提出了基于图像难忘指数和信息熵的关键帧提取方法,保证提取的视频摘要令人感兴趣和具有丰富性。其次,对于未经编辑的无特定结构用户视频,本文提出了基于难忘指数、视频捕捉点和运动信息的动态用户视频摘要方法,通过训练一个线性回归模型对三个特征进行融合,用来预测视频片段重要性,依此提取出视频中包含用户感兴趣视频帧或运动物体的片段,组合成简短视频。相比关键帧,这样的动态视频摘要以浓缩版视频呈现给用户,不仅保留着用户最关注的视频内容,还能更好地表达视频动态语义。在YouTube、SumMe等标准数据集上的实验结果证明,本文方法取得更好结果,生成了更符合用户喜好的视频。3)提出基于Web图像先验和深度排序的动态视频摘要方法。随着视频长度增加,用户视频内容越来越复杂多变,工作2)中基于内容重要性特征的动态视频摘要方法无法有效处理这类场景复杂的长视频。为了更有效地处理复杂长视频,识别出视频中的用户感兴趣片段,本文提出深度网络来代替工作2)中人工定义的高级语义特征,用于预测视频帧重要性。考虑到Web图片是用户仔细筛选上传的,包含值得用户拍摄的内容。本文搜集大量与视频内容相关的Web图片作为先验数据集,然后提出基于改进triplet loss的深度排序网络来学习“interest”和“non-interest”图片的重要性关系,最后利用训练好的重要性排序模型来判断用户感兴趣内容并提取动态摘要。实验证明,本文提出改进的triplet深度排序模型,有效解决了已有方法的收敛问题。同时,相比使用人工特征来计算视频帧和Web图片的相似性,使用深度网络来挖掘Web图片,能了解用户对某些事物的判断,因而更准确地选出重要视频片段。4)提出紧凑而丰富的关键帧提取方法。尽管工作2)中利用难忘指数和信息熵来最大化保证提取的关键帧令人感兴趣和具有丰富性,但这样几帧关键帧很容易丢失原始视频动态语义内容。动态视频摘要包含视频动态语义内容,但相比关键帧,它无法直观地呈现视频内容给观众,需要观众播放浏览才能获取视频内容。为了使生成的静态视频既包含视频动态语义信息,又简洁直观地呈现给观众,本文提出从每个视频镜头中重新生成一幅紧凑而丰富的关键帧,最优地表示出一个具有固定背景的镜头内的所有动态信息。首先利用感知哈希互信息将原始视频分割成多个镜头,然后检测分割并优化选择出镜头中最优运动对象,最后利用KNN抠图,将选出的运动对象拼接在一帧图像上作为关键帧。相比已有方法,该方法将一个镜头场景内容压缩到一帧关键帧上,生成紧凑而丰富的关键帧,更好地表达了视频语义内容。