基于堆叠乘积量化的最近邻检索

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:finallove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大数据、人工智能和物联网技术得到飞速的发展,图像、视频等高维数据正呈现爆炸性增长。在这些海量的高维数据中查找目标数据也随之变得耗时和低效。为了解决上述问题,近似最近邻的概念及各种算法被陆续提出,并成为图像检索、机器学习、数据挖掘等多种应用中的一类基本算法。其中的乘积量化算法(PQ)具备内存消耗低,查询效率高等优点,被证明是解决高维空间近似最近邻查找的最有效算法之一。基于经典乘积量化算法的不足,近年来不少学者对乘积量化算法进行了优化改进,由于乘积量化算法中存在向量子空间中特征点分布不均匀的问题,优化的乘积量化算法(OPQ)被提出来,用于优化空间特征点的重新分配。由于对特征向量进行简单划分,会导致子向量间的相互独立,有学者提出了加法量化算法(AQ)以解决这个问题。为解决特征向量在进行量化时,存在量化误差较大的问题,堆叠量化算法(SQ)通过迭代地对误差进行量化,以进一步降低量化误差。本文中,我们提出了一种新的量化算法来做近似最近邻查找:堆叠乘积量化算法。这种量化算法融合了堆叠量化算法的量化误差低和乘积量化算法内存消耗低的优点。该算法的核心思想为:第一步将高维的特征向量划分成维度相同的低维子特征向量,在每个子向量空间中进行k-means聚类量化;第二步将特征向量与量化后对应的编码单词做差得到对应的误差向量;第三步把误差向量看成特征向量,以此进行划分子向量、子向量分别量化、求误差向量的操作;迭代第三步直到达到终止条件,从而产生一组从粗糙到精细的分层子码本。对分层子码本进行笛卡儿乘积得到整体向量的码本,进而可以得到原始向量的编码表示。本文在经典的SIFT1M、GIST1M和ConvNet1M-128数据集进行实验设计及验证。大量的实验表明,在不少算法性能指标上,比如量化误差、召回率、可扩展性等,本文算法与经典的量化方法相比都有较大优势。而且,对比乘积量化方法,我们的方法能够产生精确度更高的子码本;对比堆叠量化算法,我们的方法消耗内存少且具备较好的扩展性。
其他文献
众多实际的问题可以抽象为图的模型,如网络拓扑、社交网络、网页超链接等。针对这些应用需求,业界和学术界开发了很多基于图的算法、计算框架、开源软件、函数库,这在一段时间内
一个自主的数据库管理系统是指该系统能进行自我调整,自我优化,自我修复,自我保护的数据库管理系统(DBMS)。由于专家型的数据库管理员是非常紧缺的,所以需要引入一个能进行自
腹部CT图像是进行肝脏肿瘤检查最常见的成像技术。作为一种计算机辅助技术,它有助于医生获得肿瘤的大小、多少、位置等信息。基于腹部CT图像的肝脏肿瘤分割,主要是指将肝脏肿
语义物联网环境下的前端传感器设备具有感知和标识能力,其数据特点是庞杂繁多且较为分散,受限于前端感知设备储存和处理数据的能力,需要依赖云计算技术强劲的运算能力以降低
在工业检测流水中应用机器视觉系统,对样本进行检测,以提高制造业、印刷业等工厂的机械自动化能力,提升工业生产效率,已经成为生产中的迫切需求。本文提出了一种高速特征检测
事务内存做为一种在并行程序设计中对共享数据的访问控制机制,在最近几年得到了广泛的研究,其提供的简易的编程模型能有效地简化并行编程模型。当事务内存这种先进的并发控制机
互联网的快速发展导致了互联网上的信息量与日俱增。如何从互联网上获取用户所需要的信息已经成为了一个热门问题。在这个背景下,信息检索技术发展起来了。针对信息检索中,文档
随着数据规模不断增加和处理难度增大,大数据(Big Data)变得非常重要。存储系统对图像文件等非结构化的大数据查询服务缺乏有力支持,传统的文件元数据信息没有表达图像文件内容,区
在移动对象数据挖掘领域,移动对象异常检测是一个十分值得研究的方向。本文针对移动对象异常轨迹检测的发展状况,全面总结了该领域中的各种方法,对各种方法的不足进行阐述,从
互联网已经成为人们获取信息的重要来源,如何从互联网海量信息中快速、准确地获得所需要的信息,成为当前亟待解决的问题。然而传统的Web信息抽取方法依赖特定的模板,针对一个模