分类型数据的聚类算法研究

来源 :广东工业大学 | 被引量 : 5次 | 上传用户:kuangzhiyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为数据挖掘中重要的技术一聚类分析,它按照相似原则将数据进行分类.在无监督学习下,聚类的最终结果是将海量的数据有效地划分为各个子类,使得同一个类别中数据对象的相异度尽可能低,不同类别中数据对象的相异度尽可能高.目前,数值型数据的聚类已经取得较好的成果了,如经典的k-means算法已得到广泛的应用和推广.然而在实际生活中,存在大量的分类型数据.由于分类型数据不具有数值型数据的几何特性,所以无法直接进行数值运算.于是,分类型数据的聚类相对来说就变得比较复杂,它是学习算法中重要而又棘手的问题之一.近年来,许多学者针对分类型数据的聚类进行了探索和改进.针对k-means算法不适用于分类型数据这一问题,k-modes算法在此基础上进行了拓展.本文针对了k-modes聚类算法中的若干问题进行了研究,并对比和分析了现有的各种改进后的k-modes算法.传统的k-modes算法采用0-1匹配方法定义每两个对象属性之间的距离,不仅没有将整个数据集的分布考虑进来,而且忽视了属性间的相互关系对距离的影响,导致差异度度量不够准确.针对以上问题,本文的研究成果主要有以下几个方面:(1)从互信息的角度出发,基于相互依存冗余理论定义了同一属性下不同属性值之间的距离,进一步改进了Hong jia提出的距离公式.改进后的距离由内部距离和外部距离两个部分决定,内部距离体现了每两个对象属性值本身的差异度,外部距离体现了其他属性对该属性的影响程度.(2)本文将基于相互依存冗余的距离应用于k-modes算法中,并分析了改进后算法的时间复杂度.与基于其他距离度量的k-modes算法进行实验比较,结果表明基于相互依存冗余度量的k-modes算法不仅能有效处理大规模数据,而且能有效提高算法的聚类精度.(3)从属性值共现的思想出发,基于结构相似性计算模型给出一种新的相异度度量方法,并将其应用于传统的k-modes算法,同时分析了改进后算法的时间复杂度.该方法不仅考虑了属性值它们本身的异同,而且考虑了它们在其他属性下所处的状态.实验结果表明,与传统的k-modes算法和Ahmad算法相比,基于新的相异度度量的k-modes算法不仅具有较好的集群识别能力,而且提高了聚类效果.本文的研究成果不仅丰富了分类型数据相异度度量的研究,而且在一定程度上为分类型数据的聚类提供了新的方法支持.
其他文献
学位
阐述了加速加载试验的定义及分类,简要介绍了几种典型试验设备的技术参数及应用效果,并提供了一些有用的结论,为加速加载试验在中国的发展和应用提供了参考。
石粉变塑料国家发明专利我厂发明的用90%以上的石粉,加入几种化工原料,经混溶乳化,密炼裂解膨化,改性造粒,使普通石粉瞬间变成新型塑料颗粒,广泛用于吹塑、拉丝、拉管、注塑
本文主要考察了来自半导体材料或者等离子体的双极流体动力学模型,它由带松弛项的Euler型方程组和电场的Poisson型方程组籍合而成。运用经典的能量估计的方法,主要讨论了一类
学位
学位
随着教育改革的不断深入,我国的教育发展突飞迅猛,多媒体也逐渐走入现代化课堂教学中.目前,小学阶段的学生更多的学习基于感性理解上,多媒体的教学更加适合小学生的思维逻辑.
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
小电流接地系统故障选线一直是国内外研究的一大难题,目前为止已经有大量选线方法提出,但其现场投入使用的情况均不是非常理想,选线方法大致可分为主动式和被动式选线方法。本文
分析云中220kV变电站直流系统运行状况,存在安全隐患,对变电站设备、电网的安全稳定运行造成一的飞影响。所以对云中220kV变电站直流系统的运行维护,研究行之有效的预防和解决办