基于可导航小世界图的近似最近邻算法研究及应用

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:moimon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,搜索效率对于图像检索、机器学习、推荐系统、语义文档检索等领域具有重要意义。近年来,基于近邻图的近似最近邻搜索方法(ANNS)相对于基于树、哈希、量化的ANNS具有更高的查询效率,引起了业界的特别关注。基于近邻图的近似最近邻搜索方法有可导航小世界图(NSW)、分层可导航小世界图(HNSW)、NSG等,其中分层可导航小世界图(HNSW)通过采用长距离边缩放和类似于跳表的分层结构表现出突出性能,成为该领域的一个主要研究和比较方法。但是HNSW存在以下几方面的不足:(1)不易进行分布式部署,难以实际应用于大规模数据搜索硬件资源;(2)采用的贪婪算法存在陷入局部最优的问题;(3)不支持动态多属性过滤搜索;(4)由于多层图结构以及连边策略存在搜索时内存开销大的问题。本文将针对HNSW存在的上述不足进行如下研究:(1)研究提出一种基于子图划分的分层可导航小世界图方法GP-HNSW,可支持分布式存储和查询,同时也一定程度优化了 HNSW可能陷入局部最优的问题。基于聚类方法将数据集划分为多个子集,每个子集采用HNSW图结构组织数据并可独立存储;(2)提出了基于子图划分的一种多属性NSW方法MA-NSW,解决了 NSW和HNSW搜索时不能进行动态多属性过滤的问题。MA-NSW通过导航树和多个叠加层相结合的方式构建索引,将特定属性过滤的近似最近邻搜索导向到对应的叠加层;(3)针对MA-NSW内存开销过大问题,提出一种量化编码优化方法SQMA-NSW,实验表明有很好的压缩效果。上述研究成果通过实验验证了比HNSW更为优越的查询速度和召回率,同时还支持动态并行增删结点的易维护优点。最后,基于上述研究成果设计和实现了一个大规模科技文档语义搜索平台,实现了根据多属性筛选和文本内容快速搜索相关文档的功能,验证了研究成果的有效性。本文的研究将对近似最近邻搜索方法的研究和应用提供很好的参考意义。
其他文献
随着我国文物保护意识的加强,关于唐帝陵的保护不再局限于陵体本身。本文依托于地理国(省)情普查试点项目,通过对陵区监测区两期地表覆盖变化进行对比分析,提出“影响地类变化”反
城乡二元分割问题阻碍了经济的发展,引发了一些社会不稳定,城乡分割格局虽然主要不是因财税政策不当而产生的,但却大多与财税政策有关。西部地区各方面条件相对较差,发展相对滞后
结合多年的教学实践,总结了物理实验教学应具有符合认识事物规律性、激发学习知识的积极性、教学与科研融合为一体、多因素动态系统等特点;又从物理实验教学的环节上,阐述了
西部有深厚绵长的历史文化,鲜明多彩的民族文化和丰富灿烂的革命文化.加强文化建设和全面推进西部大开发关系密切,意义深远.从总体战略的角度出发,西部文化建设首先应优先发
基于居群生物学的基本原理和研究手段,对云南省分布的川滇蔷薇7个自然居群进行了相关调查,对它们的12个表型性状数据进行了统计与多样性分析.结果显示:这12个表型性状的F值在1
陕西人民革命斗争是中国革命的重要组成部分,在中国新民主主义革命的各个时期都占有十分重要的地位。陕西人民积极响应五四运动,广泛传播马克思主义;坚守西安孤城,支援北伐战争;建
一、课标和考纲的要求 [课标要求] (1)简述鸦片战争后中国经济结构的变动和近代民族工业兴起的史实,认识近代中国资本主义产生的历史背景. (2)了解民国时期民族工业曲折发展