论文部分内容阅读
由于互联网技术的不断进步与各类电子终端的迅速普及,我们获取资讯的方式发生了重大的改变,网络信息已经成为社会中各种信息的重要载体。其中,新闻视频以其丰富、直观表达方式成为我们获得资讯的重要手段,对于我们了解时事有着重要的帮助。面对越来越多的视频数据,如何从中找到所需的视频信息成为一个重要的话题。视频的分段摘要可以使我们较好的了解新闻内容,并加快浏览效率。为了解读视频信息,新闻视频语义提取技术受到广泛的关注,同时有着广阔的前景与应用价值。本课题围绕新闻视频的语义检测以及分段摘要等任务,在新闻视频本身的内容提取和对文本内容的分析摘要等方向进行了深入的研究,取得了较好的效果,研究内容如下: 1.新闻视频语义提取模型框架的建立。分析新闻视频语义提取的研究现状,研究了现有的语义提取方法,进行了效果评估。针对于新闻视频的语义提取研究,结合相关理论,对基本特征和高层特征进行研究归纳。针对研究现状的不足,结合新闻视频的语义特征,认为新闻视频语义提取的首要是对文字、字幕等信息的提取,明确了研究思路并对研究内容进行理论储备。最后针对性的建立了新闻视频语义提取模型框架。 2.基于角点检测的文字区域定位算法。针对新闻视频中的文字往往带有较多语义信息的特征,提出了运用角点检测定位抽取新闻视频文字的方法,采用改进的 Trajkovic角点检测算法,结合 SCSD自适应阈值算法控制角点量,以获得更多的文字角点。在对文字角点进行精度处理后,采用基于广度优先遍历的聚类算法进行文字区域定位与提取。实验证明,本方法针对性强,效果明显,在定位效率上可以达到实时性以满足新闻视频的时效性,文字角点检测准确性上更优于其它算法,可达到82.1%。 3.新闻视频的多主题摘要。为了得到新闻视频依据时间轴的分段摘要,以方便用户的阅读、检索等需求,我们进行了文本分析和语义提取以达到对一段新闻视频进行分段多主题摘要的效果。在对提取到的新闻视频文本语料进行预处理后,针对目前文本自动摘要技术的不足,结合新闻视频文本集的特性设计了对文本语料的相似度计算与句子权重计算方法。从实验结果可得,通过与其它方法的对比,我们的方法在准确率、召回率和 F值三个评价指标方面都有显著提升,较好的获得了新闻视频的多个主题及其摘要信息。