论文部分内容阅读
随着信息技术的高速发展,数据库应用的规模、范围和深度的不断扩大,导致积累了大量的数据,而这些激增的数据后面隐藏着许多重要的信息,因此人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。聚类是数据挖掘领域中的一个重要课题。DBSCAN算法是一种基于密度的空间聚类算法。该算法利用基于密度的聚类概念,即要求聚类空间中的一定区域内所包含对象的数目不小于某一给定阈值。DBSCAN算法的显著优点是聚类速度快,且能够有效处理噪声点和发现任意形状的空间聚类。但是,由于其直接对整个数据库进行操作,且进行聚类时使用了一个全局性的表征密度的参数,因此也具有两个比较明显的问题:其一,当数据量增大时,要求较大的内存支持,I/O消耗也很大;其二,当空间聚类的密度不均匀,聚类间距离相差很大时,聚类质量较差。针对上述问题,本文提出了一种基于数据分区和QR*树的并行DBSCAN算法——PQR*TDBSCAN,即根据数据的空间分布特性,将整个数据空间划分为多个较小的分区,使分区的局部密度相对更均匀;然后将每个局部分区分别送入一个处理单元中,以每个处理单元为基础建立能提高区域查询效率的QR*树,用基于QR*树的DBSCAN算法进行聚类;最后将所得到的聚类结果按照合并规则进行合并。最后通过仿真实验,验证了PQR*TDBSCAN算法解决了内存消耗过大和聚类质量差的问题。