足球视频信息抓取与拷贝检测

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:khalista7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,视频信息急剧膨胀,谷歌、百度等通用爬虫越来越不能满足人们的专业化需求,因此对足球视频搜索而言,如何在互联网上抓取足球视频成为一个亟待解决的问题,同时人们习惯将视频以转载、分享等形式发布于网络,导致互联网中存在大量相似或相同的视频,增加了数据库的冗余,降低了检索效率,因此在内容上对这些视频进行拷贝检测也成为了国内外研究的一个重要课题。在深入分析网页主题相关度计算与网页预测算法的基础上,提出了基于词库分类的主题爬虫。通过对网页标题的分析预判定网页与主题的相关度,优先处理与主题相关度高的网页,提高抓取准确率。在抓取的信息中,存在部分相似或相同视频,通过对拷贝检测中不同特征选择及匹配算法优缺点的分析,提出了以镜头为基本单位进行视频拷贝检测的算法,该算法充分结合足球领域知识,同时通过对拷贝镜头的分析判定视频拷贝类型。为了提高拷贝检测的准确率,在特征匹配上采用最近次近点距离比值匹配算法,为了提高镜头序列的匹配速度,利用足球镜头类型,在内容上将镜头进行量化,避免匹配过程中不必要的比较。实验结果表明,基于词库分类的主题爬虫在准确率上有了很大提高,通过词库对网页标题的预判定能很好地对网页主题进行判定。在抓取的足球视频中,采用镜头级拷贝检测在准确率上取得了较好的效果,匹配过程中采用镜头类型过滤也在一定程度上加快了镜头序列匹配速度。但在足球视频抓取中采用精确匹配方式一定程度上限制了抓取覆盖率,还需作进一步研究,同时为了在保证准确率的情况下提高匹配速度,视频关键帧的特征匹配算法仍需作进一步分析。
其他文献
随着虚拟化技术和云计算技术的发展,越来越多的科学计算应用运行在云计算资源之上。MPI编程模型是一种消息传递编程模型,大多数科学计算应用都是基于这种消息传递编程模型的高
服务器是信息服务业的基础设施,但当前利用率普遍偏低。虚拟化技术能够提升服务器效率,降低管理复杂程度,在数据中心得到广泛运用。块设备是存储I/O系统中的主要外部设备,其访问
重复数据删除作为当前存储系统的关键技术,能够大幅节省存储空间,极大减少网络数据传输量,尤其是针对数据备份和归档。然而,当面对大量数据时,数据块指纹索引不能全部放入内存,磁盘
特征选择是一种用来降低数据集维度的技术,其核心是从输入的特征集合中选择出最具有预测性的特征子集来代表原始数据集合。特征选择不仅可以简化特征内在的关系还可以改善整
随着网络安全问题的日益突出,隐蔽信道作为重要的网络危害之一,逐渐成为学术研究热点。根据隐蔽信息的载体的不同,隐蔽信道分为时间式和存储式隐蔽信道,另外还有多链路式隐蔽
互联网技术的快速发展致使涌现出了各种类型的数据资源,用户面对的信息结构与层次难以划分,信息的有效组织成为一个亟待解决的问题。目前主流文件系统主要是解决数据的存放的性
随着我国高校的蓬勃发展,高校教学和课程改革也全面开展,课程考核与分析决策是实现改革重要形式,如何降低课程考核的工作量,如何做到课程考核的全面性、科学性,提高课程考核
随着多媒体技术及因特网的快速发展,因特网上图像数据来源不断扩大,图像的数量增长迅速。相对于文字信息,图像表达更加生动、易于理解,因此各行各业对图像的使用越来越普及,比如医
在数据库应用系统中,加快数据查询的执行速度非常重要。数据仓库技术通过对源数据库的数据提前进行归纳、分析、整理,从而提高了查询速度。动态数据仓库针对传统数据仓库更新周
基于机器视觉的标记检测方法在工业控制、农业生产、国防建设等领域内都有广泛的应用,但在医疗领域的应用相对比较少。针对目前医用体外冲击波碎石机在对肾脏结石患者进行结石