论文部分内容阅读
广播电视及网络影视资源早已成为人们日常文化生活的一个重要组成部分。目前,影视视频内容的丰富性和多样性及特征数据特有的时空高维结构等,使得人们开始思考如何有效地组织和管理这些海量视频,并且尽可能快地定位到自己感兴趣的内容。然而,大部分的多媒体内容都需要人工地进行结构和语义分割及编目,以便能够更加有效地索引、分类存储或检索这些内容。随着影视视频资源数量井喷式地增长,这种需要投入大量人力物力资源来完成的视频结构、语义分割及编目方式越来越不能满足影视剧节目制作和使用的需求。如果能够实现影视视频结构的自动解析、理解及编目,这无疑将节约大量的资源,并提高电视节目的生产效率。本文针对这一问题,从分析视频的结构和内容出发,对视频结构解析及自动编目技术进行研究。其中视频结构解析主要是针对视频数据规模大的特点,对视频数据结构进行分析,将其分解成若干独立的逻辑单元。同时通过视频内容分析获取可用于视频自动编目的基本语义信息,实现影视视频自动结构解析和编目。具体而言,本论文主要从镜头边界检测、场景检测、场景识别、影视演员识别等方面对影视视频结构解析及编目进行研究并提出解决方法。具体的研究问题包括:如何在复杂多变的视频中合理高效地进行视频结构的解析;如何准确并有效地提取包括场景类别、影视演员人名等在内的用于自动编目的基本语义信息。本论文的主要贡献如下:(1)针对如何准确而高效地实现镜头边界检测的问题,提出了一种焦点区域互信息计算和跳帧检测结合的快速镜头边界检测方法,同时从时间和空间上加速检测并且保证了准确率。我们的方法合理有效地描述了视频帧间差,减少了冗余信息的处理,实现了快速准确的镜头边界检测。具体而言,利用焦点区域互信息在空间上减少了计算的帧内像素点数,利用自适应跳帧检测在时间上减少了处理的图像帧数量,并且通过分析图像帧的角点分布去除误检测。实验结果表明该方法能够有效地降低镜头边界检测所耗费的时间,同时保证准确率并检测到更多的渐变边界。(2)针对影视视频场景检测及识别的问题,我们首先提出了一种基于核典型相关分析和特征融合的影视场景检测算法。针对影视剧中场景较复杂且难以定位的问题,综合考虑音频和视频信息,利用核典型相关分析算法进行特征融合来获取鲁棒性更强的新特征,进而使用图分割的方式准确地检测场景边界。其次,对场景检测获取的场景片段,通过去除噪声区域、获取全景关键帧等获取典型局部特征块,并使用潜在狄利克雷分析主题模型进行场景类别建模和分类,将影视场景片段归类到特定的五类场景类别中。(3)针对影视剧中演员人物自动识别和人名标注问题,提出了有效的解决方法:使用演员列表信息和网络搜索结合的方式构造演员人脸训练集;通过人脸检测和视频跟踪获取人脸跟踪集后,利用基于核的多任务联合稀疏表示分类(Kernel Multi-task Joint Sparse Representation and Classification, KMTJSRC)算法对每个人脸跟踪集进行识别;最后,利用条件随机场模型对人脸跟踪集序列进行更准确和有效的序列标注。(4)基于视频结构和基本语义内容的自动编目原型系统的设计与实现。为了验证本文算法有效性,我们设计并实现了影视视频自动编目原型系统。我们基于论文中所提出的视频结构解析和若干特定基本语义提取算法,构建了更加高效和合理的自动编目原型系统,并且在实际应用中得到了应用和验证。通过大量实验表明,本文提出的方法能够准确而高效地对视频内容进行结构解析,还能够获取场景类别、演员人名等基本语义内容作为自动编目的条目内容,最终大幅地减少人工工作量,提高传媒行业企业视频编目的效率。