论文部分内容阅读
聚类分析是一种以探索数据本质,划分数据类别为目的的无监督学习方法,已经成为机器学习领域和数据挖掘领域的研究热点之一。密度聚类算法是一个重要的聚类分析工具,其采用新的度量方式,利用密度连通来确定类簇的思想,为聚类分析提供新的解决思路。近年来,研究者们提出了很多密度聚类算法,并将算法应用于大规模空间数据的知识挖掘、图像分割、微博文本分析等实际领域中。应用于含噪声空间数据的密度聚类算法DBSCAN是经典密度聚类算法的代表之一。DBSCAN算法在不需要知晓数据集类簇个数的情况下,不仅能够把任意形状的类簇划分出来,还能够识别出数据集中的噪声数据。然而该算法对两个输入参数Eps和MinPts的依赖性很大,且难以处理多密度数据集。因此,本文结合数据场理论,利用数据场能够综合考虑数据间相互作用力、合理描述数据集的整体分布的优势,研究了基于数据场的密度聚类算法。主要工作内容包括以下三个方面:1.结合数据场思想和DBSCAN算法,设计了一个基于数据场的改进DBSCAN聚类算法,该算法适用于包含多种密度和多个形态类簇的数据集。算法首先利用数据场得到数据集的整体信息,通过引入平均势差来辅助Eps和MinPts进行后期的聚类。新算法只需用户输入参数MinPts,平均势差和Eps的取值通过考虑选定核心数据所在类簇的数据分布情况,根据核心数据的选择实时确定,最后利用密度可达得到聚类结果。通过与K-means算法、DBSCAN算法和数据场聚类算法的对比实验分析,表明提出的算法能够得到较好的聚类结果。2.为了探索新算法的实际应用能力,研究了如何将新算法应用于图像分割领域,并考查了数据场势函数的参数mi对聚类结果的影响。考虑到像素的灰度值在图像显示中占有重要的地位,将参数mi的取值与其相关联,通过对图像进行一系列的非线性处理来影响mi的取值。另外,为了使得聚类结果的图像显示更加符合人类的视觉感知,文中采用两种显示方法。通过对几幅示例图像的处理分析,以及与其它图像分割算法的比较,京明提出的算法可以应用于图像分割领域且参数mi对聚类结果有影响。3.为了给用户提供良好的交互界面以及直观的算法性能比较,利用C#.NET、 MATLAB编程语言和SQL Server2008数据库,设计并实现了基于数据场的聚类算法实验系统,包括对UCI数据集、人工数据集等不同数据集进行K-means算法、DBSCAN算法、数据场聚类算法、基于数据场的改进DBSCAN算法的聚类分析和结果显示。本文结合数据场的理论,为密度聚类算法解决不同密度数据集提供了新的思路,不仅将新算法应用于图像分割领域,也探索了势函数中mi的取值对聚类结果的影响。