论文部分内容阅读
当今信息化时代,各种以数据形式表达的信息几乎以指数的量级在迅速增长,许多隐含在海量数据中的知识正等待人们去挖掘、去发现.作为数据库研究、开发和应用最活跃的分支,数据挖掘—从大量数据中用非平凡的方法发现有用的知识--有着广泛的应用.但是,数据挖掘面临的是海量数据和极其复杂的运算,而以往的数据挖掘技术主要是基于传统的(串行)计算机系统,尽管人们为了解决运算的时间和空间的复杂性问题花费了大量的精力,却仍然得不到满意的结果.有些数据挖掘方法,即使有并行挖掘的概念,也因缺乏并行运行环境而只能在串行计算机上运行,因而大大降低了挖掘效率.随着网络技术、高性能计算机的发展,对大规模数据的分布式并行处理已成为可能.并行数据挖掘技术的研究成为当前研究热点和今后重点发展的方向,国内外都在进行一些数据挖掘并行算法的研究.上海大学峰值速度达到每秒4500亿次浮点操作的自强2000机群系统为我们开展并行数据挖掘技术的研究提供了良好的基础条件.数据聚类在数据挖掘、模式识别、图象处理和数据压缩等领域有广泛的应用,是数据挖掘的一个重要分支.本文总结了聚类算法的基本模型,选择DBSCAN算法,提出几种适合在高性能机群系统上运行的并行DBSCAN算法,通过实验和比较,分析几种并行DBSCAN算法的优缺点.这些算法都收集在基于自强2000机群系统并行数据挖掘系统中,该系统除了运行算法之外,还实现了数据清洗、数据划分及数据发送(发送到各个处理机上)、参数选择及聚类质量评估等功能.具体而言,本文的工作如下:1)分析基本的聚类算法,对它们的可并行性进行讨论,选择一种聚类性能好,适合并行的聚类算法——DBSCAN算法;2)在串行DBSCAN算法基础上提出三种并行DBSCAN算法,一种是建立在全局数据库上的全局并行DBSCAN算法——PDBSCAN,其他两个是基于数据分区的并行DBSCAN算法——DPDBSCAN和OPDBSCAN;3)分析比较了三种算法的优缺点;4)建立聚类性能评估模型,向用户反馈聚类性能信息,介绍如何指导用户选择相关参数;5)介绍基于机群系统并行数据挖掘系统的结构及功能,并在该系统上实现一个并行聚类算法应用实例.