论文部分内容阅读
随着电子商务的不断发展,网络购物因其快捷、方便等优点而被越来越多的人所选择,但随之而来的是网络图像呈几何增长。如何在这浩瀚的购物图像数据集中快速有效地返回用户需要的图像商品,即图像的相似性搜索问题,已成为学术界和工业界的最新研究热点。目前,已有部分购物搜索系统出现,例如:淘淘搜、安图搜等。而在这些系统中,当用户上传一张图像时,系统返回的时间都相对较长,很难达到用户的需求。为了提高查询速度,需要对系统中的数据集进行索引结构的建立,一个好的索引结构可以大幅度提高系统检索速度。针对这个特点,最初人们提出了通过构建树形索引结构等一系列方法来解决图像的相似性搜索问题,但这些方法通常只适用于特征向量维度较低的情况。当特征向量维度较高时,这些方法的性能逐渐下降。为了解决该问题,一种基于近似最近邻搜索算法—LSH (Locality Sensitive Hashing)被提出。该方法适用于高维数据且具有快速高效的搜索效果,因此被作为目前用于相似性搜索最为流行的一种方法。本文仍从哈希角度出发,提出了两种快速有效的局部敏感哈希算法,其旨在保证系统能在一定搜索精确度的情况下减少查询时间。本文的主要工作和贡献总结如下:第一,提出了一种基于随机的局部敏感哈希算法。该算法仍遵循LSH思想和框架,但针对现有LSH算法普遍存在的缺陷进行改进。在建立索引时,对于结构中的每个哈希桶,其内部特征向量按照与所属哈希桶的桶中心距离进行升序排列存储。查询时,利用三角不等式原理对候选桶向量进行剪枝过滤,减少距离计算次数,提高查询速度。第二,提出了一种基于非随机的局部敏感哈希算法。该算法针对随机局部敏感哈希存在的性能不稳定性提出改进。在原始数据集上根据分析维度信息量来建立哈希函数,由于一个固定的数据集维度信息量始终不变,因此哈希函数的选取不具有随机性,从而保证了算法性能的稳定。查询时,利用多探测检测思想,除了将与查询点对应哈希桶作为候选桶外,还将临近桶也作为候选桶,同时,利用三角不等式进行剪枝过滤,提高查询速度。第三,对本文提出的两种算法与其它算法进行实验对比验证。针对购物图像,选用颜色全局特征和SIFT (Scale Invariant Feature Transform)局部特征,其中SIFT描述子采用BoW (Bag-of-Words)模型构建词汇表,使得每幅图像只对应一个向量。通过与精度最好的顺序扫描法和经典的一些LSH算法进行比较,验证本文提出的两种哈希算法在时间、空间、查全率、维度适应性、性能稳定性等方面均具有良好的性能。