论文部分内容阅读
聚类分析是一种无监督的学习方法,对于探索数据的重要特征,揭示空间数据的分布规律以及预测数据对象的发展趋势有着重要的作用.在当今大数据时代的背景下,聚类分析获得了人们越来越多的关注,并在求解实际问题中出现了多种聚类算法.然而,现有的聚类算法大都需要人为预先地设置聚类参数,这些参数的设置不仅缺乏理论依据,给用户的使用带来不便,而且不合理的参数设置往往会对聚类结果产生较大的影响.基于上述原因,本文将贝叶斯决策理论的思想应用到了聚类分析中,构建了聚类方案的风险评估函数,并基于该函数在改进的K-means聚类算法的框架上提出了一个自动聚类算法.本文基于最大最小距离提出了一个关于K-means聚类算法的初始中心选择方法.基于最小距离选择对类内距离贡献最小的数据对象,基于最大距离选择与现有中心最不相似的数据对象.利用最大最小距离将所有的数据对象分配至最近的初始中心,并选择距离当前中心最远的数据对象作为下一个初始中心,直到选取的初始中心满足所需的数目为止.通过在人工数据集和UCI库中的真实数据集上进行实验仿真,表明了提出的方法能够有效地避免初始中心随机选择所产生的聚类结果的不确定性,提高了聚类结果的质量,有利于确定最终的聚类方案.本文基于贝叶斯决策理论提出了一个自动聚类算法.本文将贝叶斯决策理论中单一的研究对象拓展为一个对象组,通过对所有对象组聚类状态的分析来实现对整个聚类方案的分析,构建了聚类方案的风险评估函数.进而基于构建的风险评估函数提出了一个自动聚类算法.该算法采用对数据集不断进行裂变的方式来寻找良好的聚类方案.在每次裂变中,提出的算法利用最大最小距离选择相应数目的初始中心进行K-means聚类来获取相应方案,并利用构建的风险评估函数对获得的方案进行风险评估,根据风险大小的变化情况选择合理的聚类数目,从而自动地确定最终的聚类方案.本文分别在人工数据集和UCI库中的真实数据集上进行了实验仿真,结果表明,提出的方法在无人为预设参数的情况下也能获得良好的聚类结果,确定合理的聚类方案.