基于粗糙集的类别数据聚类算法研究

被引量 : 6次 | 上传用户:yisheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,信息技术发展极其迅速,数据库技术也随之快速发展,人类获得数据的手段越来越多样化,使得人类所拥有的数据量急剧增加。人们需要从这些数据中获得更多有价值的信息,数据挖掘在此背景下得到广泛关注。聚类是数据挖掘重要的分支,因其是无监督分类而颇具研究和实用价值。在实际应用中,我们经常会遇到大量的类别型数据。由于类别型数据没有数值型数据所具有的几何性质,传统的聚类方法不能直接用来处理类别型数据,需要专门针对类别型数据提出相应的聚类方法。近年来,针对类别型数据的聚类方法引起了广泛关注,并出现了K-modes、Fuzzy K-modes等聚类算法。现有的针对类别型数据的聚类算法还存在很多问题,例如,距离度量不合理、缺乏有效的机制来选择初始中心等。为了解决现有的方法所存在的问题,本文利用粗糙集理论来研究面向类别型数据的聚类,作为一种处理不确定和不完备数据的有效工具,粗糙集理论在数据挖掘的很多领域中都可以发挥重要的作用。我们在传统重叠距离的基础上提出了一种新的距离度量标准,并且提出了两种新的初始中心选择算法。本文所做的工作主要包括以下三个部分:(1)提出一种新的距离度量——加权重叠距离,并由此提出一种基于加权重叠距离的K-modes聚类算法WODKM。在WODKM算法中,我们使用粗糙集理论中的属性重要性和粗糙熵等概念来计算每个属性的重要性,并且在计算对象之间的加权重叠距离时,不同的属性将根据其重要性的大小被赋予不同的权重,从而可以有效地体现出不同属性之间的差异性。实验充分证明了该算法的有效性。(2)将基于距离的离群点检测方法应用于K-modes聚类,利用该方法来选择初始类中心,并由此提出一种新的初始中心选择算法Ini_Distance。为了避免将离群点选为初始中心,我们将传统的基于距离的离群点检测技术引入到K-modes聚类中,通过计算每个对象的离群程度值以及对象之间的加权距离来选择中心点,从而使得离群程度低的对象更有可能成为中心点。另外,通过考虑任意两个初始中心点之间的距离,我们同样可以避免多个中心点来自同一个类的问题。(3)由于基于距离的离群点检测方法存在计算开销大、过于依赖相关的参数等问题,本文进一步提出一种基于信息熵的离群点检测方法,并基于该方法来为聚类选择初始类中心,并由此提出一种新的初始中心选择算法Ini_Entropy。相对于Ini_Distance算法,Ini_Entropy算法具有更少的计算开销,而且不需要预先设置相关参数。
其他文献
急性冠脉综合征是由冠状动脉斑块破裂、血栓形成导致急性或亚急性心肌缺血的临床综合症。炎症反应伴随斑块形成是该综合症发生发展的主要病理机制。髓过氧化物酶(myeloperoxid
猪肺炎支原体是引起猪呼吸道疾病的重要病原之一。虽然近年来对猪肺炎支原体的感染机制、药物治疗、疫苗研究等方面做了大量的研究,但是仍然不能有效快速地对猪支原体肺炎进行
随着科学技术的迅速发展,尤其是互联网技术的发展,我国信息化的步伐逐步加快。在日常生活中,公民需要更多的通过使用自己的个人信息来同这个日新月异的社会发生联系,比如在升学、
一、概述为了加强和规范企业内部控制,提高企业经营管理水平和风险防范能力,促进企业可持续发展,财政部会同证监会、审计署、银监会、保监会制定了《企业内部控制基本规范》,
文章用水热法合成了含氯方钠石粉末,并讨论了NaCI的掺杂浓度、晶化时间和晶化温度对方钠石结构的影响。通过X射线衍射(XRD),扫描电镜(SEM)和热重分析(TG-DTA-DSC)对合成方钠
需求捕获和需求分析的目标是发现真正的需求并以适合用户、客户和开发人员的方式加以表示,需求的成败决定着待开发系统的成败。本文详细阐述了"界面原型法"中界面需求及用户角
在传统的思维里,每当人们谈到《共产党宣言》的时候,首先浮现在脑海中的是"阶级斗争"、"暴力革命"等这样一些观念。而对于"发展生产力"、"世界市场"和"全球化"、"人的自由全
在素质教育的大力推行下,在新课程改革方案的出台后,尤其是《国家中长期教育改革和发展规划纲要》的颁布后,高中个性化作文教学沐浴着时代的春风,迎着朝阳慢慢地向我们走来,
针对波纹管压弯和焊接复合成形压痕严重和可靠性不高的现象,提出了波纹管液压成形方法。阐述了波纹管液压成形原理,建立了波纹管液压成形有限元模型,对不同压强条件下波纹管
<正>随着社会竞争的日益剧烈,社会分工的日益细化,对于中小学生来说,学业压力日益加剧,虽然众多专家、学者从不同角度对于学生心理健康的影响因素做了研究,但就家庭对中小学