论文部分内容阅读
随着软硬件以及网络技术的发展,视频数据在近几年呈现出爆炸式的增长,在人们的日常生活中占据越来越重要的地位,视频逐渐成为人们进行信息交流的重要载体。随着视频资源的急剧增加,如何有效地利用视频信息具有巨大的应用价值。但视频高层语义难以提取以及现有的视频交互方式单一、组织繁杂是影响视频应用发展的一个瓶颈问题,如何更加高效地浏览和定位视频已经成为现在的研究热点。同时,视频底层物理特征的处理与面向高层语义特征的用户需求之间存在难以跨越的语义鸿沟,通过已有视频底层处理技术很难得到基于视频内容的语义信息,使得自动识别视频高层语义也存在很大的难度。
为平衡由视频高层语义提取所带来的难度,研究者通过生成视频摘要与添加视频注释等方法来辅助用户对视频语义的理解以及进行后续的视频管理、浏览和定位等操作。视频数量的大幅度增加和人机交互技术的飞速发展促使视频用户不再只是被动接受视频内容信息,而是希望参加到主动编辑视频内容并进行交互的任务中去。然而,传统的交互方式是基于WIMP交互范式,在菜单选择、键盘输入以及按钮等操作之间频繁转换,影响了用户交互的连贯性以及思维的连续性。
草图技术不仅可以用于描述具体事物,也可以用于描述其它媒介难以描述的抽象信息,因而本文提出了视频语义的草图描述模型,针对当前视频内容可视化技术中存在的问题提出了一种面向视频内容的草图摘要的生成方法,并在此基础上将生成的草图摘要作为视频交互的界面,以解决视频应用中交互方式单一,操作繁琐的问题。
本文主要工作包括:
(1)分析了草图的描述能力,在分析视频语义特征的基础上,使用草图作为用户与视频低层特征及高层语义之间的中间媒介,提出了视频语义的草图描述模型;
(2)提出了一种面向视频内容的草图摘要生成方法,该方法通过视频内容分析获得视频语义特征,并通过语义特征辅助草图生成,最终进行摘要布局,构建出草图形式的视频摘要;
(3)分析了用户交互任务,采用草图做为交互媒介,通过手势命令来控制交互行为,用户通过自定义的草图注释来辅助理解视频内容,结合视频的多尺度浏览来达到自然、顺畅的交互;
(4)在上述研究的基础上,设计并开发了面向视频内容的草图摘要生成与交互的原型系统,并通过用户评估实验,实验结果证明该系统具有优于已有方法的易用性,取得了良好的效果。