混合属性数据的几种聚类算法的研究及应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wohaha163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘中,如何提取出我们有用的信息,是学者们的研究重点,而聚类分析就是其中一种占比很大的分析方法,对于数据的可视化有较为重要研究意义.由于数据的复杂性及多样性,混合属性数据的聚类成为聚类分析研究中的热点问题之一.在混合属性数据的聚类研究中,现有的很多聚类算法虽然能够得到较好的聚类结果,但其严重依赖初始值以及聚类数目的选择,需要人为的选择参数,可能会使聚类得到一个较坏的结果;并且对于混合属性数据对象之间的距离的计算,一般都是把数据看成两部分,数值型和分类型,之后对同属性的数据进行计算,在把两者进行加和求解,这样可能会导致部分信息的缺失;对于具有复杂形状的数据,某些算法会得到较差的聚类结果,针对这些问题,本文做了以下的一些研究.(1)针对K-means算法依赖初始值及聚类数目的问题,采用了ACC算法确定初始值及聚类数目,用来调节K-means算法.并在UCI数据集上进行实验验证,结果表明ACC-K-means算法有更高的准确率以及更好地稳定性.(2)针对混合数据是一个整体性数据的问题,本文采用Gower系数处理混合属性数据.又K-prototype算法依赖初始值、聚类数目的问题,本文采用ACC算法,再基于有限覆盖的思想对数据进行全局优化,以到达较优的聚类效果.实验证明,改进的算法CBDO算法相对于K-means算法以及K-prototype有较好的实验结果.(3)针对处理复杂形状数据的问题,本文采用谱聚类算法进行聚类.而由于谱聚类中的相似性矩阵中的距离是基于欧式距离,会损失数据之间的信息,所以我们采用基于信息熵赋权的流形距离.实验验证,本文算法有较好的聚类性能.
其他文献
由于海洋石油开发的特殊性,每个采油平台的槽口数量有限,而新建平台或者外挂槽口成本太高,因此利用低效井和关停井的槽口进行套管内开窗侧钻成为一种很好的选择。QHD32-6F平
金湖凹陷C6断块构造复杂,储层微相类型多,采用一套层系开发后,油田平面和纵向矛盾突出,油田因含水上升快而产量迅速递减,油田过早进入中高含水阶段,开发效果变差,针对油田水
<正> 野菊花味苦,微寒,功能清热,解毒,消肿。野菊花疗效虽好,但味苦患者不易接受,不便于携带与储藏。我们根据野菊花有特殊的气味,在常温下能够挥发的特点,经反复蒸馏试验,终
城市河道的发展使命,在公共领域是为城市居民带来优美的观赏和游憩空间,重现城市生活空间的经济活力,形成城市区域发展新动力。在河道防洪治理方面以保护周边居民免受洪涝灾
1798年,马尔萨斯描绘了人口膨胀与粮食供给间的可怕景观:饥荒、瘟疫与战乱。仅从近200多年来的农业发展尤其是二战后“智力模式”的结果来看,好像技术进步可以让人类不必过于