论文部分内容阅读
近年来,随着多媒体技术的不断发展,多媒体数据成为了最流行的获取信息的方式之一。对于海量的数据,通过对视频添加标注来建立索引是常用的方式。传统的基于视觉特征的视频标注方法通过建立底层视觉特征到高层语义之间的映射,缩小视频的“语义鸿沟”,对视频进行自动化的标注。教学视频作为一种领域视频,通过实现教学资源的持久化,使在线学习成为了可能。然而,教学视频却与一般视频不同,具有视觉特征不明显,场景单一等特性,传统的标注方法难以达到满意的效果。因此,如何有效地针对教学视频的特点,对教学视频进行自动化的标注以满足海量教学视频检索和管理的要求,是当前的重要问题。本文针对教学视频的特点,提出了一个基于多模态特征的教学视频标注方法。通过结合视频图像、音频、文本三个模态的特征,来对教学视频进行全面的标注,解决教学视频视觉特征不明显,标注困难、效果不佳的问题。主要的研究工作包括:一、提出了一套基于多模态特征的教学视频标注框架。该方法不同于目前流行的基于卷积神经网络的视频标注方法,结合教学视频的图像、文本、音频三个模态的特征对教学视频进行多角度全面的标注,以应对教学视频图像特征不明显的问题。二、提出了针对教学视频的层次化处理方法。该方法以传统的镜头分割和关键帧提取方法作为基础进行改进,针对教学视频的特点,通过人脸识别等技术对关键帧进行快速分类,并提出了一种基于局部特征的分区域课件关键帧提取方法应对课件切换视觉特征变化不明显的特点,有效地降低了教学视频的处理复杂度。三、设计了一种基于音频模态特征的教学视频标注方法。该方法结合音频识别、卡方检验、词频反向文档频率等技术,对教学视频的音频模态特征进行提取和分析,对教学视频的课程进行标注。四、设计了一种基于文本模态特征的教学视频标注方法。该方法基于现有的OCR产品,对课件中文本内容的提取加以改进,通过与大纲进行匹配,对教学视频所属章节以及分镜头的知识点进行标注。同时通过提出的视频树模型进行场景合并,并与基于音频模态特征的标注结果进行融合。本文所提出的基于多模态特征的教学视频标注方法结合多个模态的特征,很好地解决了单一模态特征造成的错误和缺失,同时能够更全面地对教学视频进行标注。同时,通过原型系统的设计、实现和验证,验证了本文方法的有效性。