基于数据分区和QR*树的并行DBSCAN算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:mumurong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,数据库应用的规模、范围和深度的不断扩大,导致积累了大量的数据,而这些激增的数据后面隐藏着许多重要的信息,因此人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。聚类是数据挖掘领域中的一个重要课题。DBSCAN算法是一种基于密度的空间聚类算法。该算法利用基于密度的聚类概念,即要求聚类空间中的一定区域内所包含对象的数目不小于某一给定阈值。DBSCAN算法的显著优点是聚类速度快,且能够有效处理噪声点和发现任意形状的空间聚类。但是,由于其直接对整个数据库进行操作,且进行聚类时使用了一个全局性的表征密度的参数,因此也具有两个比较明显的问题:其一,当数据量增大时,要求较大的内存支持,I/O消耗也很大;其二,当空间聚类的密度不均匀,聚类间距离相差很大时,聚类质量较差。针对上述问题,本文提出了一种基于数据分区和QR*树的并行DBSCAN算法——PQR*TDBSCAN,即根据数据的空间分布特性,将整个数据空间划分为多个较小的分区,使分区的局部密度相对更均匀;然后将每个局部分区分别送入一个处理单元中,以每个处理单元为基础建立能提高区域查询效率的QR*树,用基于QR*树的DBSCAN算法进行聚类;最后将所得到的聚类结果按照合并规则进行合并。最后通过仿真实验,验证了PQR*TDBSCAN算法解决了内存消耗过大和聚类质量差的问题。
其他文献
如何持久化对象是面向对象分析和设计中都需要解决的问题。由于面向对象数据库还不成熟,对象/关系数据库虽然有所发展,但是出于应用传统以及方便与遗留系统的集成的因素,关系
作为一种新型的松散耦合的分布式计算模型,Web服务提供了应用软件之间独立于操作平台和编程语言的互操作。但是,Web服务也带来了新的安全风险:XML应用程序层的新威胁、关键应
作为一类特殊的随机过程,Markov过程在实际生活中有着广阔的应用领域。Markov决策过程(MDP)和半Markov决策过程(SMDP)都是描述这类随机系统常见的数学模型。其中,SMDP是一类
随着P2P技术应用的越来越普及,P2P网络中的安全问题得到了人们更多的重视。由于P2P网络中资源和责任分布于网路中各节点,没有中心服务器给认证和授权策略的实施带来了很大困
当今世界信息化已成为世界军事发展的主要方向和潮流,实现飞行教学指挥管理的信息化已经成为空军飞行学院最为紧迫的现实课题之一。针对飞行学院教育训练管理现状(效率低、差
传统的家庭娱乐方式正发生着飞速的改变。随着数字家庭系统的流行,消费者越来越愿意坐在客厅里,通过大屏幕电视和高保真音响来欣赏网络媒体内容。数字媒体适配器(Digital Med
增强现实技术可以把计算机产生的虚拟物体或者其他信息合成到用户看到的真实世界中,而协同增强现实技术可使多个使用者在增强现实环境下协同工作。目前绝大多数协同增强现实系
描述Web服务的标准如WSDL,UDDI等大多基于语法层,存在同名异义和同义异名的问题,会导致基于语法关键字匹配的服务发现机制的低精确性,解决语义异构问题的方法就是为Web服务的
随着计算机网络的不断发展,人们对计算机系统的性能和可靠性的要求也越米越高。分布式系统是一组逻辑和物理上互联的处理单元的集合。将计算任务分布到多个物理主机上处理,可以
随着信息时代的到来和Internet的日益普及,电子文本迅速膨胀,如何在海量的文本中提取潜在的、有价值的知识和模型成为信息处理的一大目标。其中,文本分类作为信息处理的一个