论文部分内容阅读
近年来,随着网络技术的发展,很多P2P系统相继出现,P2P技术也越来越被人们所关注。目前P2P技术已经被应用在很多方面,主要有信息检索、文件共享、电子商务、分布式计算等领域。其中,信息检索作为查找网络信息的主要手段,是P2P技术目前最常见的应用。一直以来,高维数据都是数据库领域研究的热点,在实际中也有很多应用,例如数据挖掘、多媒体信息检索等领域。相似性检索是个非常关键的问题,即在数据集中找到与某个对象相似性较大的数据。高维数据检索过程中,距离计算是影响检索效率的一个重要因素,为了减少距离计算,近些年已经提出了一些解决办法,主要是以近似向量表示或者为数据建立一维索引为思路,前者通常是为高维数据寻找一个近似的向量表示形式,简化搜索空间。为数据建立一维索引是将高维数据通过某种方法转化为一维数据,以降低维度带来的影响。高维空间与我们所熟悉的低维空间不同,其中的数据分布有其独特的特点,即高维数据空间几乎是中空的,这使得大多数多元密度估计方法无法得出准确的结果,因为密度相对低的区域占了分布的很大一部分体积,而密度高的区域却缺乏足够的观测值。本文在分析了高维空间的这些分布特点之后,根据数据量将其分割成若干个子空间,使得这些子空间中的数据量分布大致均匀。子空间的划分是对数据空间纵向的分割。在子空间建立的基础上再进行分区划分,分区的划分是对数据空间横向的分割。空间划分之后,综合近似向量表示和为数据建立一维距离索引的基础上,为数据建立二维索引值,在数据索引和结构化P2P网络Chord节点的标识符之间建立映射关系,在检索过程中对查询进行两层过滤,减少了数据之间的距离计算,提高了查询性能。实验结果表明,这种二维索引结构在查准率,查找效率等方面有很好的性能。