pgi-Distance:一种高效的并行KNN-join处理方法

来源 :云南大学 | 被引量 : 0次 | 上传用户:D243435dsfsdfqwe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
KNN-join是一种新近才提出的操作,它在数据挖掘中有着广泛的应用。利用KNN-join的“一次一个集合”的性质,一些数据挖掘任务,例如分类、例外挖掘和聚类等,就会更加容易地进行。MuX和Grreder则是两种专为KNN-join设计的算法。由于MuX是利用R树索引来减少CPU耗费,那么和其它基于R树索引的应用一样,它必然面临着“维数灾难”的困境;而Gorder对I/O和CPU耗费的优化是有条件的,那就是要有合适粒度的格子,由于数据分布预先是未知的,因此确定合适粒度的格子也是困难的,其性能随之降低也就不难理解了。为了综合利用这两种方法的优点,一种新的KNN-join处理方法-pgi-Distance(parallel gridindex-Distance)被提了出来。 首先,pgi-Distance使用双层结构可以对I/O和CPU进行同时优化。第一层结构是粗大的细胞(Cell)结构,它可以有效地降低磁盘的随机读写从而达到对I/O进行优化的目的。第二层是细胞中的索引结构,索引有利于简化计算,对CPU的优化有利,这样通过双层结构I/O和CPU都得到了优化。 其次,基于距离的索引能够让pgi-Distance更好地适应数据维度和分布的变化。在高维空间中,最常用的索引是基于MBR的R树及其变形树,众所周知,R树面临着“维数灾难”的困境,为了避免这种不利的情况,pgi-Distance将高维空间映射到一维空间,采用B<+>树对各数据点进行索引,由于B<+>树是一种为各DBMS厂商广泛支持的索引,这就让pgi-Distarice成为一种更为实用的KNN-join处理方法。 第三,pgi-Distance是一个支持并行KNN-join处理的方法。数据挖掘需要处理海量的数据,除了研制高效的算法外,另一个有效途径就是并行化。由于pgi-Distarice是利用格子对数据空间进行划分,边界问题容易处理,便于进行并行化。 最后,同时在标准数据集和真实数据集上做了实验,实验表明pgi-Distance是一种高效实用的KNN-join处理方法。其中真实数据集来源于“三江并流植物多样性空间数据仓库”,实验的结果对实践具有指导意义。
其他文献
当今随着网络的蓬勃发展,人们对信息共享的需求急剧膨胀。在此新形势和环境下,P2P技术很好地满足了这种海量的需求,逐渐成为现代网络技术的领军角色。因此,人们从实用角度出发,对P
J2EE是一种利用Java2平台来简化企业解决方案的开发、部署和管理相关的复杂问题的体系结构。J2EE多层系统主要由架构设计、框架以及多个设计模式组成。设计模式是系统架构的
随着无线通信技术的广泛应用,无线通信领域的安全问题也引起了广泛的重视。PKI(Public Key Infrastructure)技术是在有线环境下的安全平台,它使用的密码算法如RSA算法等由于计
随着信息技术的不断发展和计算机网络的日益普及,网络安全问题日趋严重。现有的安全技术与产品主要应用和部署在网络层,在一定范围内能保障网络系统的安全,实际应用中,更需要采取
信息技术爆炸早已经掀起了变革的浪潮,从各个方面持续而又深入地影响着组织和个体。军队也不例外。作为一名来自祖国海防前线的军队干部,作者十分关注如何运用信息技术有效地促
软件测试是软件开发中极为重要的过程,通常,测试在整个软件开发过程中所占的比例约为40%,因此测试技术的发展对于缩短测试周期、降低维护成本、提高软件质量有重要意义。软件测试
随着计算机网络技术的发展和计算机技术的广泛应用,人们对计算机的依赖程度也越来越高,计算机的可靠性和可用性也变得越来越重要。尽管单台计算机的性能和可靠性越来越好,但是还
数据库技术是计算机科学技术中发展最快的领域之一,也是应用最广的技术之一,已经成为计算机信息系统和应用系统的核心技术和重要基础。作为一种系统软件,数据库管理系统系统
21世纪是知识经济的时代。知识管理(Knowledge Management,或简称KM)就是运用集体的智慧提高集体的应变能力和创新能力,是为企业实现显性知识和隐性知识共享提供的新途径。根据
互联网技术的飞速发展,个人的工作、学习、生活越来越离不开互联网,在网络巾如何找到自己所需要的信息已经成为人们首先要面对的问题。搜索引擎的出现,方便了人们进行信息资源的