论文部分内容阅读
随着信息技术的发展,智能视频监控技术在社会安防中的重要性日益突出。尤其是在视频监控领域,每天都会有海量的视频数据被拍摄记录下来。然而,当有案件发生需要从视频中获取关键线索时,往往需要人工浏览大量的视频,耗费了大量的时间,而且效率低下。因此,如何能够有效地将监控视频进行浓缩概括,快速高效地浏览海量监控视频,是当前社会安防领域亟需解决的问题。技术发展迅速,已经被广泛地应用到了影视、交通、新闻等多个领域。基于视频摘要的展现形式,目前的视频摘要算法主要分为静态视频摘要和动态视频摘要两大类。静态视频摘要的优点是它的构建与表现都相对简单,不依赖于具体场景,缺点是可能丢失信息,失去了视频的动态特性,且存在较多的冗余信息;动态视频摘要具有很好的流畅性和观赏性,能够同时去除时间冗余和空间冗余,视频摘要的浓缩比高,而且视频中的运动信息基本不会发生丢失,但是算法摘要结果的质量依赖于运动目标检测与跟踪的准确性。在监控场景下,视频摘要往往是用于帮助公安人员从视频中获取关键的线索信息,快速找到事件发生的时间地点以及嫌疑人员的信息。但是现有的视频摘要算法只是对视频内容进行概括,并不能提供某个对象的详细信息。而且,现有的摘要算法并没有充分利用对象的属性信息,仍存在进一步提高视频浏览效率的空间。这对这些问题,本文主要做了以下几方面的研究:针对目前视频摘要算法存在的无法全面概括总结视频内容的局限性,提出了一种分层次的视频摘要方法。该方法将最终生成的视频摘要分为两层,即整体层的视频摘要和对象层的视频摘要。同传统方法生成的摘要一样,整体层是从宏观层面对视频内容的进行了概括总结,用户可以通过浏览该层确定是否有感兴趣的对象存在当前的视频中;对象层的视频摘要是对对象详细信息的概括总结,并且以记叙文的形式展现,使得用户在查看对象详细信息时可以有良好的用户体验。最后,将每个层次的视频摘要生成过程描述为能量最小化问题,并通过启发式的搜索算法得到最优解即最终的视频摘要。算法仍可以被改进,进一步提高浏览效率。当前的视频摘要算法并没有对视频中的对象属性信息充分利用,本文对这些信息进行了进一步利用,提取出一些更贴合实际的信息,并将这些信息融入到最终的视频摘要结果中以此提高浏览效率。为了使该部分思想更加具体和具有说服力,本文基于对象的运动轨迹提出了一种徘徊异常检测算法。在浏览摘要时,浏览者可通过查看是否存在徘徊异常的标志来确定当前视频中是否有徘徊行为。针对现有视频摘要系统存在的缺少对信息的多层次处理,以及缺少用户交互的问题,用模块化的封装和接口设计实现了一套视频摘要系统,具有良好的扩展性,而且每个模块处理不同层次的信息,系统方便灵活可以根据需求及时调整。为了提高算法的时间性能,利用Nvidia的GPU硬件加速技术CUDA对本文的视频摘要算法进行了优化加速。通过利用GPU强大的计算能力和对特征提取模块的并行化计算实现算法的加速。本文提出的分层次视频摘要算法是面向监控视频的,解决了传统方法不能全面概括视频内容的问题,同时进一步提高了视频的浏览效率。最后将算法进行系统实现,并利用CUDA优化加速了本文的算法。