论文部分内容阅读
在数据挖掘中,如何提取出我们有用的信息,是学者们的研究重点,而聚类分析就是其中一种占比很大的分析方法,对于数据的可视化有较为重要研究意义.由于数据的复杂性及多样性,混合属性数据的聚类成为聚类分析研究中的热点问题之一.在混合属性数据的聚类研究中,现有的很多聚类算法虽然能够得到较好的聚类结果,但其严重依赖初始值以及聚类数目的选择,需要人为的选择参数,可能会使聚类得到一个较坏的结果;并且对于混合属性数据对象之间的距离的计算,一般都是把数据看成两部分,数值型和分类型,之后对同属性的数据进行计算,在把两者进行加和求解,这样可能会导致部分信息的缺失;对于具有复杂形状的数据,某些算法会得到较差的聚类结果,针对这些问题,本文做了以下的一些研究.(1)针对K-means算法依赖初始值及聚类数目的问题,采用了ACC算法确定初始值及聚类数目,用来调节K-means算法.并在UCI数据集上进行实验验证,结果表明ACC-K-means算法有更高的准确率以及更好地稳定性.(2)针对混合数据是一个整体性数据的问题,本文采用Gower系数处理混合属性数据.又K-prototype算法依赖初始值、聚类数目的问题,本文采用ACC算法,再基于有限覆盖的思想对数据进行全局优化,以到达较优的聚类效果.实验证明,改进的算法CBDO算法相对于K-means算法以及K-prototype有较好的实验结果.(3)针对处理复杂形状数据的问题,本文采用谱聚类算法进行聚类.而由于谱聚类中的相似性矩阵中的距离是基于欧式距离,会损失数据之间的信息,所以我们采用基于信息熵赋权的流形距离.实验验证,本文算法有较好的聚类性能.