基于SimHash的海量视频检索研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:tdkfire
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络上,由于视频经常被复制、编辑并重新上传,导致出现了很多相似甚至重复的视频,对视频进行基于内容的相似性检索可以有效解决该类问题,对于视频内容的发布商以及监管者而言,对视频内容进行监管也依赖于视频的相似性检索。伴随着视频数据的成倍增多和网络视频用户的持续增长,如何对大规模视频数据进行高效快速地检索成为研究的热点问题。为此,本文采用SimHash算法对视频关键帧构建特征,从而将海量视频检索问题转化为汉明距离检索问题,在此基础上提出一种基于Bloom Filter算法进行汉明距离检索的方法,该方法对SimHash签名库中所有签名穷举其汉明距离在K以内的所有签名,并将Bloom Filter结构汇总在一起组成类似BitMap的结构,最终查询汉明距离时,只需要计算Bit Map的并集,提高了查询效率。针对海量视频检索提取特征存在的空间复杂度问题,引入MapReduce框架,设计MapReduce算法进行分布式处理解决了空间复杂度较大的问题。本文创新工作如下:1)针对现有SimHash签名匹配存在的时间复杂度较高的问题,引入Bloom Filter结构,改进SimHash签名查找的方式,通过CC_WEB_VIDEO实验数据集的测试表明,在保证召回率与准确率的前提下,本文方法与Zhang基于LSH的方法相比,视频数量达到12790时,算法执行效率提高2倍。2)针对海量视频检索中提取特征、构建索引存在的时间复杂度与空间复杂度均较高的问题,引入MapReduce框架,设计基于MapReduce的并行处理算法,与单机提取特征方法相比,基于MapReduce的方法提高了时间效率与空间效率,并可线性扩展。
其他文献
随着数据业务的不断发展,下一代网络成为发展的必然趋势。下一代网络采用分层的结构,分为松散耦合的业务层、控制层、媒体传输层和接入层。在下一代网络的发展中,SIP(Session
关联规则的研究是数据挖掘的重要内容之一,现有的关联规则挖掘算法大都是在频繁项集的基础上进行挖掘,关于非频繁项集的研究较少,然而在研究负关联规则后,非频繁项集因包含重
数据整合是解决信息“孤岛”问题,实现数据共享的重要途径。医疗健康信息的数据整合是为了实现跨医院、跨地区、跨领域的健康资料共享,提高我国的全民健康和医疗卫生水平。脚
基于内容的图像检索技术是根据描述图像视觉内容的特征向量进行相似性检索,其中,图像视觉内容的提取可以是通用的,也可以是基于特定应用领域的。基于特定应用领域的图像检索
语音识别是近年来高速发展的一项技术。让计算机听懂人说话,甚至和人进行交流是我们梦寐以求的梦想。在不久的将来,这个梦想会变成现实。本文的主要目的是对连续语音识别进行
我国在2009年成为世界第一大汽车产销国,伴随着国内经济的高速发展,国内车辆保有量直线上升,截止至2014年低,我国汽车保有量已经达到1.54亿辆,小型载客汽车达到了1.17亿辆,这
在基于模型检测的不确定规划中,由于不确定因素的存在,某些状态在执行一个动作后会随机地到达某些状态,只有对这些状态添加辅助信息进行观察才能确定具体位置。因此对规划过
移动自组织网络(Mobile Ad Hoc Networks)是移动通信技术的核心组成部分之一,其技术优势明显,应用前景十分乐观。但与有线网络相比,移动自组织网络中节点和对应链路失效的概
密码破译技术的快速发展,一方面促进了学者们对加密算法的深入研究,另一方面对现有算法的密钥长度,提出了更高的要求。素数,作为几种常用加密算法的密钥参数,研究价值不言而
随着监测环境的日趋复杂,迫切需要将图像、音频、视频等信息量丰富的媒体引入到以传感器网络为基础的环境监测活动中来,实现细粒度、精准信息的环境监测。图像传感器网络是由