论文部分内容阅读
随着互联网的快速发展,视频信息急剧膨胀,谷歌、百度等通用爬虫越来越不能满足人们的专业化需求,因此对足球视频搜索而言,如何在互联网上抓取足球视频成为一个亟待解决的问题,同时人们习惯将视频以转载、分享等形式发布于网络,导致互联网中存在大量相似或相同的视频,增加了数据库的冗余,降低了检索效率,因此在内容上对这些视频进行拷贝检测也成为了国内外研究的一个重要课题。在深入分析网页主题相关度计算与网页预测算法的基础上,提出了基于词库分类的主题爬虫。通过对网页标题的分析预判定网页与主题的相关度,优先处理与主题相关度高的网页,提高抓取准确率。在抓取的信息中,存在部分相似或相同视频,通过对拷贝检测中不同特征选择及匹配算法优缺点的分析,提出了以镜头为基本单位进行视频拷贝检测的算法,该算法充分结合足球领域知识,同时通过对拷贝镜头的分析判定视频拷贝类型。为了提高拷贝检测的准确率,在特征匹配上采用最近次近点距离比值匹配算法,为了提高镜头序列的匹配速度,利用足球镜头类型,在内容上将镜头进行量化,避免匹配过程中不必要的比较。实验结果表明,基于词库分类的主题爬虫在准确率上有了很大提高,通过词库对网页标题的预判定能很好地对网页主题进行判定。在抓取的足球视频中,采用镜头级拷贝检测在准确率上取得了较好的效果,匹配过程中采用镜头类型过滤也在一定程度上加快了镜头序列匹配速度。但在足球视频抓取中采用精确匹配方式一定程度上限制了抓取覆盖率,还需作进一步研究,同时为了在保证准确率的情况下提高匹配速度,视频关键帧的特征匹配算法仍需作进一步分析。