论文部分内容阅读
数据挖掘技术是目前计算机领域的研究热点之一,聚类分析作为数据挖掘技术的一个重要分支同样引起了大量研究人员的重视。目前在各个领域,针对不同的应用类型,已经开发了多种聚类算法。但是这些算法中没有一种算法能够适应所有的数据类型、簇和应用。所以,对于更加有效或者更适合复杂数据类型、簇或应用的新的聚类算法,总有一定的开发空间。同时,虽然目前已经存在了一些聚类评估的技术来判断什么是一个好的簇集,但是当使用客观度量精确地定义簇时,如何实现最优聚类往往在计算方面比较困难。论文在对聚类算法做了详尽的分析之后,就课题两个方面的工作——聚类算法的改进和模式评估方法的提出做了深入的研究,并且辅以大量的可视化散点图和实例数据集实验结果图。由于传统聚类算法在聚类初始条件的确定、输入参数对领域知识的依赖程度、噪声数据的影响处理和变密度簇聚类等问题上面,存在着一定缺陷,故本课题提出了改进算法——基于密度和密度可达聚类算法(Clustering Algorithm Based on Density and Density reachable,CADD),该算法引入三个概念:第一,间接密度可达概念,深化算法挖掘复杂形状簇能力;第二,将簇密度的差异性引入邻域半径计算中,提出动态邻域半径的概念,使算法可以处理变密度簇;第三,提出了局部密度的概念,避免全局密度算法在某些参数下核心点落入数据稀疏区域的问题。实验结果表明,算法的设计和实现是成功的。其次,文章对课题提出的基于数据点K-最近邻图的评估个体数据实例典型性的方法,进行了细致的讲述。在不同维度的数据集上进行的实验结果表明,课题提出的评估方法是切实可行的,是对聚类模式的一种有力的评估工具,增强了无指导聚类算法结果的可解释性和算法的可用性。同时,文章对比K均值、层次算法和神经网络考察了CADD算法处理实例数据集的有效性,实验表明,本文的密度算法和模式评估方法对处理现实数据集是有效的,可用性较高,聚类结果的可解释性良好。