高性能相似性搜索算法与优化关键技术研究

来源 :清华大学 | 被引量 : 1次 | 上传用户:chhy6266746
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似性搜索是计算机学科中的一个基础性课题,被广泛应用于诸多研究领域中,包括信息检索,多媒体处理,机器学习等等。相似性搜索算法主要用于解决最近邻(Nearest Neighbor,NN)查询问题,由于在大部分的应用场景下,使用近似的查询结果就可以很好的满足应用的需求。因此,近年来,学术界提出了一系列近似求解最近邻查询问题的相似性搜索算法。然而,在大数据环境下,应用对搜索算法在数据维度、计算规模以及搜索性能等方面提出了更高的要求,使得高性能相似性搜索算法得到了当前学术界与工业界的普遍关注,这也是本文的主要研究内容。论文的主要成果包括:1.提出最优化子空间构建方法,提升了基于子空间聚类的一类相似性搜索算法的精度。针对基于子空间聚类的一类相似性搜索算法,本文提出了四种不同的子空间构建方案,并通过实验分析发现了子空间构建与搜索精度、搜索速度三者间的关联关系。基于这些关系,进一步提出了子空间构建的最优化方法,该方法解决了此类算法在搜索精度上不稳定的缺陷,在保持同等搜索速度的前提下能够获得26.7%的精度提升。2.提出一种新的高精度高可扩展的并行相似性搜索算法PCAF。PCAF首次采用估算排名的方式来预测数据之间相似性的大小差异,同时实现了一种开销极小的双堆数据过滤机制,并且创新性的对搜索任务内部耦合进行拆解,设计了一种细粒度的并行搜索策略。实现结果表明,与现有的五种最流行的并行相似性搜索算法相比,PCAF可扩展性最佳,速度最快,能够在最短时间内查询到高精度(>98%)最近邻结果,获得1.3倍至18.9倍的加速比,并且可在多种不同数据集上实现精准搜索的算法。3.提出一套执行优化框架,解决了相似性搜索算法在实际应用中的性能优化问题。该框架对执行优化系统的架构、各部分组成形式和逻辑结构都进行了明确且详细的定义。通过设置精度、速度和计算规模优化目标,利用二分查找原理调节算法参数,使得调优后的算法能够满足用户对实际应用中的精度和性能需求。实验结果表明,使用基于该框架设计的执行优化系统对RKD、RBC和PCAF算法调优以后,能够在达到用户所需精度(>95%)的同时获得5.87倍至70.46倍的性能提升。其中,PCAF算法能够在不到3秒的时间内,完成对包含100万条960维数据的真实大规模数据集“GIST1M”的最近邻查询,其搜索精度高达95.15%。
其他文献
我国现行《环境保护法》是在计划经济体制下建立起来的,在有些方面已不太适应现实的需要,矛盾和不足日益凸显出来。《环境保护法》的立法原则统领全局,以科学发展观为指导,对
传统测年方法(14C、热释光、光释光等)无法直接测量地貌面或基岩面的形成年代,利用宇宙生成核素定出的年代可以直接计算地质、地貌体的暴露年代和埋藏时代。随着测量仪器的长
对于小学体育课程来讲,其由于新课改的逐渐广泛铺开,让体育逐渐开始了创新模式,而体育游戏逐渐被研发出来,成为了小学体育教师的一种体育课程教学手段,体育游戏顾名思义是以
<正>不同地区的公众"官瘾"状况有何不同?人们对于官本位的认识和评判又有哪些差异?人民论坛调研基地在东部(广东、浙江)、中部(河南、湖南)、西部(陕西、四川)地区随机发放了
<正>《红楼梦》第九十九回里有"正申燕贺,先蒙翰教,边帐光生,武夫额手。"这么一句,在三种带注释的《红楼梦》里都把其中的"额手"注释为"以手加额"。此注不知何所据。我们查阅
雄黄是我国常用的矿物类中药,由于晶体空间结构不同,可分为α雄黄(AsS)和β雄黄(As4S4)。雄黄受氧化作用会产生剧毒物质砒霜(As2O3),其中β雄黄因空间结构关系更易被氧化,因
探索城镇化演进背景下环境污染对城镇化的阻尼效应,对制定城镇化健康发展策略及城镇规划具有重要启示意义.选取工业废水等10项指标构建了环境污染综合评价体系,采用熵值赋权
小流域综合治理是抵御水旱灾害的有效措施。以小流域为单元,统一规划,合理配置水土保持工程,能拦截径流,削减洪峰,减少河道水库的淤积,提高引洪能力和抗洪能力,同时水平梯田
《网页设计与制作》是一门实践性非常强的课程,传统的教学方式往往容易重理论轻实践,很难体现学生的实践运用能力,也容易造成学生处在被动接受知识的地位,不利于学生操作能力
利用SPSS for Windows软件,对在我国沪深上市的30家旅游企业1999年业绩进行整理、分析,了解我国旅游企业在1999年的经营和盈利状况,并以此进行综合评价.