符号属性数据聚类算法的研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:ufo747
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,被广泛应用于金融欺诈、医疗诊断、图像处理、信息检索和生物信息学等领域。近年来,针对数值属性数据的聚类算法研究已取得了丰硕的成果。然而,在现实世界中,存在着大量的符号属性数据,由于符号属性数据缺乏固有的几何特性,不能简单地将现有的数值属性数据聚类算法应用于符号属性数据。因此,符号属性数据聚类算法的研究成为一个非常重要的研究内容,并引起了广泛地关注。本文在K-Modes和模糊K-Modes聚类算法框架下,对符号属性数据聚类算法进行了深入地研究,论文的主要研究成果如下。(1)基于粗糙集中的粗糙近似和粗糙隶属度,提出了两种新的相异测度。提出的相异测度在度量同一符号属性下两个属性值之间的差异时,克服了简单匹配差异法的不足,既考虑了它们本身的异同,又考虑了其它相关符号属性对它们的区分性。将提出的相异测度应用于传统K-Modes聚类算法中,并与基于其它相异测度的K-Modes聚类算法在UCI数据集上进行了比较,实验结果表明基于新相异测度的K-Modes聚类算法是有效的。(2)对基于频率的相异测度进行了研究,提出了一种更加适合模糊K-Modes聚类算法的相异测度。提出的相异测度充分考虑了Mode对模糊类的代表程度,将它应用于模糊K-Modes聚类算法中,并给出了基于模糊隶属度的模糊K-Modes聚类算法的收敛性证明。在UCI数据集上与传统K-Modes和模糊K-Modes聚类算法进行了比较,实验结果表明基于模糊隶属度的模糊K-Modes聚类算法是有效的。总之,本文从多种角度对符号属性数据的相异测度进行了研究,提出了新的符号属性数据聚类算法,并在UCI数据集上对算法的有效性进行了验证。本文的研究为符号属性数据的聚类分析提供了新方法与新技术,在数据挖掘和知识发现等领域有着较的应用价值。
其他文献
图像分割是由图像处理进入到图像分析的关键步骤,是图像工程中的一个重点和难点。目前关于图像分割已有很多成熟的算法,不同算法都有各自的优点和不足之处。由于细胞图像的特
随着互联网技术的迅速发展以及计算机用户的急剧增加,互联网已经成为人们获取信息的一项主要途径。然而互联网上很多重要的信息一般都被其它信息掩盖,人们很难从如此众多的网
自1982年波兰学者Z.Pawlak创立粗糙集以来,粗糙集受到了广大学者的普遍关注,并已经广泛地应用于模式识别、机器学习、决策分析等众多领域。目前,粗糙集在地学及遥感方面也得