面向购物图像搜索的哈希索引结构算法研究

被引量 : 0次 | 上传用户:beanmilk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的不断发展,网络购物因其快捷、方便等优点而被越来越多的人所选择,但随之而来的是网络图像呈几何增长。如何在这浩瀚的购物图像数据集中快速有效地返回用户需要的图像商品,即图像的相似性搜索问题,已成为学术界和工业界的最新研究热点。目前,已有部分购物搜索系统出现,例如:淘淘搜、安图搜等。而在这些系统中,当用户上传一张图像时,系统返回的时间都相对较长,很难达到用户的需求。为了提高查询速度,需要对系统中的数据集进行索引结构的建立,一个好的索引结构可以大幅度提高系统检索速度。针对这个特点,最初人们提出了通过构建树形索引结构等一系列方法来解决图像的相似性搜索问题,但这些方法通常只适用于特征向量维度较低的情况。当特征向量维度较高时,这些方法的性能逐渐下降。为了解决该问题,一种基于近似最近邻搜索算法—LSH (Locality Sensitive Hashing)被提出。该方法适用于高维数据且具有快速高效的搜索效果,因此被作为目前用于相似性搜索最为流行的一种方法。本文仍从哈希角度出发,提出了两种快速有效的局部敏感哈希算法,其旨在保证系统能在一定搜索精确度的情况下减少查询时间。本文的主要工作和贡献总结如下:第一,提出了一种基于随机的局部敏感哈希算法。该算法仍遵循LSH思想和框架,但针对现有LSH算法普遍存在的缺陷进行改进。在建立索引时,对于结构中的每个哈希桶,其内部特征向量按照与所属哈希桶的桶中心距离进行升序排列存储。查询时,利用三角不等式原理对候选桶向量进行剪枝过滤,减少距离计算次数,提高查询速度。第二,提出了一种基于非随机的局部敏感哈希算法。该算法针对随机局部敏感哈希存在的性能不稳定性提出改进。在原始数据集上根据分析维度信息量来建立哈希函数,由于一个固定的数据集维度信息量始终不变,因此哈希函数的选取不具有随机性,从而保证了算法性能的稳定。查询时,利用多探测检测思想,除了将与查询点对应哈希桶作为候选桶外,还将临近桶也作为候选桶,同时,利用三角不等式进行剪枝过滤,提高查询速度。第三,对本文提出的两种算法与其它算法进行实验对比验证。针对购物图像,选用颜色全局特征和SIFT (Scale Invariant Feature Transform)局部特征,其中SIFT描述子采用BoW (Bag-of-Words)模型构建词汇表,使得每幅图像只对应一个向量。通过与精度最好的顺序扫描法和经典的一些LSH算法进行比较,验证本文提出的两种哈希算法在时间、空间、查全率、维度适应性、性能稳定性等方面均具有良好的性能。
其他文献
上海高速磁浮列车采用长定子驱动,通过车上感应线圈拾取电机谐波感应的电能给车上悬浮、空调及其它设备供电。它在车速低于100km/h时,靠从直线电机感应的发电能量不能满足列
工程项目风险是不可避免的,有效的建筑工程项目风险管理能够减轻风险损失,提高工程效益。本文研究了当前我国建筑工程项目风险管理的现状并以此展望建筑工程项目风险管理的未
词汇能力是语言能力非常重要的一个方面,没有一定的词汇量就无法进行有效的语言输入和语言输出。纵观目前高中英语词汇教学的现状,最突出的矛盾是学生需要在有限的学习时间内记
建筑施工企业已经成为安全事故发生的主要行业之一。所以,建筑企业管理人员一般都高度重视施工工人的生命财产安全,并且想通过安全教育培训、周密的规章制度、惩罚机制等一系
我国现代化建设取得了丰硕成果的同时,环境问题严重制约着我国国民经济的发展,党作出走人与自然和谐发展道路的重要决策。披露环境会计信息,可以更加全面、客观地反映企业的
国内外资本市场上诚信危机、财务造假事件不断曝光,财务信息使用人从重视财务报告向重视内部控制转变。近年,财政部等五部委接连发布了企业内部控制基本规范、应用规范、评价
2008年末全球经济危机及2009年欧债危机爆发,世界钢铁工业受到较大冲击,中国大中型钢铁企业普遍出现了利润下滑或亏损。国内钢铁企业历来“重生产轻流通”,然而冶炼技术改革
本文将文学领域的“叙事”概念引入到景观范畴中,寻求如何在当代景观设计中合理的运用叙事性设计手法,将本土文化巧妙的融入到现代的景观设计语汇中,提升城市景观的精神内涵
京沪高速铁路是一个时代的象征,它的开通运行拉动了地区乃至全国的经济发展。但是,面对恒久存在的运输内、外部竞争,如何提高自身的服务质量,更好的吸引客流,建立一套完善的
在我国工程项目成本控制领域长期存在概算超估算、预算超概算、决算超预算的不正常现象,严重影响着建设工程的投资效益。建设方如何合理确定和控制工程成本,把建设投资的发生