基于图的大规模特征库高维索引技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:tegger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维索引是基于内容的多媒体检索及地理、生物数据库等需要运用到高维数据库的系统中一个至关重要的部分,其性能直接影响整个查询系统的查询速度和准确率,但高维情况下的“维度灾难”问题始终困扰着高维特征向量查询的性能提升,使得高维索引常常成为相关系统的性能瓶颈之一。自上世纪六七十年代起,研究人员提出了许多种类的高维索引解决方案,但迄今仍然没有出现一种各方面性能都能令人满意的索引技术,使得当前高维索引技术的发展仍然纷乱而迫切。   本文参考目前热门的图上的随机游走算法,设计了一种融入了图上游走思想的新型高维索引技术,称为逼近索引,并给出了相应的逼近游走相似性查询算法。同时,通过分析逼近游走算法和一般高维索引算法的优缺点,本文进一步提出了一套基于逼近游走的分层组合索引思想,并按照此思想给出了一种新的相似逼近索引算法。具体而言,本文的详细工作包括:   第一,本文分析总结了向量空间和度量空间中的各种常见索引结构的基本思想和优缺点,阐述了高维索引算法的发展趋势。然后融合向量空间和度量空间索引特点,设计了一种不与特征向量维度直接相关,能有效减少高维向量查询中对特征向量库访问比例的逼近索引及相关相似性查询算法。该索引将高维特征向量库表示成图的形式,引入逼近游走来进行近似近邻查询和范围查询。   第二,本文进一步分析了目前逼近索引算法的优点和不足之处,联合多种现有的高维索引和逼近索引,提出了一种基于逼近索引的多层组合索引算法的思路。其中,完整地给出了近似逼近索引的生成维护及查询算法,并对该索引的综合性能进行了详细的评测。此外,对于超高维数据,本文提出了包含向量降维和一维转换算法的组合索引设想。   第三,在向量降维部分,本文引入了近年来热门的压缩感知理论,设计了一种利用压缩采样的思想进行高维向量降维的线性降维算法。该算法具有需要信息少,计算时间和空间复杂度低以及能处理特别高维度向量的特点。   实验数据表明,本文算法适合应用于大型特征库的相似性查询,具有访问特征库中记录条数少,查询准确性高的特点,综合性能要优于近期提出的多个索引算法,对高维索引技术的发展具有很好的参考价值。
其他文献
学位
电力负荷预测是供电部门的一项重要工作,对电力负荷进行准确地预测,能够保持电网运行的稳定性,以保证人们的正常生活和社会的正常生产,对于降低发电的成本行之有效,达到社会效益和经济效益的不断提高。因此,目前衡量一个电力企业的管理是否走向现代化的一个显著标志就是电力负荷的预测水平,特别是对于我国现在前所未有发展的电力事业,解决电力负荷预测的问题已经成为我们面临的一项艰巨而重要的任务。电力负荷预测一般被分为
我国湿地面积巨大,并且湿地环境复杂,因此湿地环境监测技术的开发日益提上日程,无人巡检船的远程控制技术则是重要的一项。同时近几年GPRS通用分组无线业务迅速的发展,使得移动通
随着互联网的发展和网络信息资源的丰富,越来越多的人习惯从互联网上获取信息。来自Google的数据显示,人们的搜索信息中有1%是为了寻找做菜方法。不同于传统的文本搜索方法,本文
从严格意义上来说,工业过程是状态变量随着时间的推进以及空间的转移,而不断产生改变的动态过程。过程的动态模拟以及动态优化,在近二十年来,越来越得到过程系统工程研究者的
随着全球信息化的发展和信息数据量的高速膨胀,信息在人们生活中的重要性与日递增,波分复用技术(WDM,WavelengthDivisionMultiplexing)的出现使得可以在一根光纤内同时传输多路
学位
随着工业迅速发展,对工业现场的准确性、实时性的检测和控制提出了更高的要求,而当前的煤炭、石油、化工、电力等部门中,大多采用的是传统的人工现场巡检方式或有线传输方式,对于
加载控制系统用于模拟船舶在航行中舵机所受水阻力的重要装置,它是船舶电液系统半实物仿真系统的重要组成部分。加载控制系统可以产生类似真实舵机运动所受到的阻力,并把阻力加
流量是科学研究和工业过程中最重要的参数之一,随着工业设备呈现出小型化的趋势,毫米级管道中流量的测量越来越重要。电容耦合式非接触电导测量技术(Capacitively Coupled Contactless Conductivity Detection, C4D)是一种新型电导测量技术,具有非接触、结构简单等优点,但目前主要用于分析化学领域中毛细管道尺度下的离子浓度测量,在毫米级管道流量测量领域中鲜