基于改进聚类算法的数据挖掘系统的研究与实现

被引量 : 12次 | 上传用户:margaretclouis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类之于数据挖掘就是对数据集中的数据应用某种方法进行分组,把具有相似性质的事情区分加以分类。聚类算法在数据挖掘算法中占有重要的一席之地,它被广泛的应用于各个领域,例如模式识别,模糊控制等等,因此越来越多的聚类方式被提出和深入研究。聚类算法通常被分为5类,有基于层次的聚类,基于划分的聚类,基于密度的聚类,基于模糊的聚类。模糊K-Means聚类算法于1981年由Beadek提出,它是一个基于划分的聚类算法,因为其效率高,可扩展性强,收敛速度快,被广泛的应用在数据挖掘中。但是算法中也存在一些问题:聚类中心的选择,和假定各维特征权值相同。在本文中,提出了一种改进的模糊K-Means算法。初始聚类中心的选择基于平均距离,算法主体加入了权重的思想,权重代表不同维度对划分的贡献不同,它考虑到整个数据集,数据的一个维度(属性值)的权值可以被当做对分类的贡献大小,贡献大的属性权值较大,反之较小。权重可以加快聚类过程,并得到更好的聚类结果。BIRCH算法是一种基于层次的聚类算法。它利用聚类特征(Clustering Feature,CF),和聚类特征树(CF Tree)两个概念来描述算法过程。文章里分析了BIRCH算法的存在的一些问题,提出了基于密度和动态阈值的任意形状的聚类算法。算法将密度和阈值综合考虑,并在过程中动态改变阈值T以适应数据集特征的改变。算法的复杂度基本和BIRCH算法持平,但是在内存控制上由于动态控制了CF树,减少了消耗,任意形状的数据集也能接近DBSCAN的聚类结果。在软件和信息技术服务行业规模逐年扩大的今天,业内竞争十分激烈,每家公司的成本,营业额,利润等都在不断变化,由此给政府部分带来很多不便。为了方便管理部门掌握实时数据,并从大量数据中挖掘出潜在价值和有意义的发展趋势,为领导决策提供参考,指导产业健康、快速、有序发展,由部软件服务业司牵头,设计了利用改进的聚类算法,具备高效、交互的挖掘特点,同时与数据仓库紧密结合,切实满足用户实际应用需求,专门针对软件和信息服务业的数据挖掘系统。
其他文献
目的 :通过测定血浆及胰腺组织中超氧化物歧化酶 (SOD)活性及丙二醛 (MDA)含量 ,初步探讨粉防己碱治疗大鼠急性出血坏死性胰腺炎的机制。方法 :4 5 %的硫磺胆酸钠经胆胰管逆
在对豫西晋南地区的河南新密新砦遗址、登封王城岗遗址、山西襄汾陶寺遗址和河南洛阳二里头遗址开展的重点研究中。动物考古学家发现,遗址中出土的动物以家猪为主,还发现了黄牛
随着市场需求的不断上升,商品化基质也在悄然占据基质的主要市场。成品复合基质由于其购买方便,被广泛用于大规模育苗、工厂化生产及普通家庭园艺。目前对商品化复合基质的研
为了研究超声波冲击对20Cr2Ni4A渗碳齿轮钢性能的影响,采用ZJ-II型超声波冲击设备对20Cr2Ni4A渗碳齿轮钢进行了超声冲击处理,利用X射线衍射仪(X-Ray Diffractometer,XRD)、X
目的:探讨自身免疫性溶血性贫血(Autoimmune hemolytic anemia,AIHA)相关性淋巴瘤的临床特点。方法:收集自2009年1月1日至2018年12月31日于广西医科大学第一附属医院诊治的AI
科学共同体是科学家的特定集团,是现代科学活动的主体。科学共同体具有伦理内涵。它的内核是活动目标、精神气质和行为规范,它的活动目标包含着善的本质,它的具体活动对于科学德
教育公平是社会公平的重要基础,解决教育不公平问题、促进教育均衡发展已成为发达国家和发展中国家共同面临的世纪难题。兴国,必先强师。2014年,由新西兰教育部、经济合作与
患者1,男性,54岁,系"低热伴黄疸20余天"入院,有乙型肝炎病史6年。查体:皮肤巩膜略黄染,化验结果:HBsAg、HBsAb、HBeAb、HBcAb均(+),CA-199 56.27 u/ml,AFP 79.28 ng/ml。B型超声检查
环境正义亦称生态正义,是当今环境伦理学所聚焦的前沿问题。它指人类社会在处理环境保护问题时,各群体、区域、族群、民族、国家之间所应承诺的权利与义务的公平对等。 本
目的:本研究通过大量临床分析,旨在归纳总结高血压左房重构的中医证候,并运用中药进行治疗,探讨中药对此病的疗效。方法:本研究利用心脏超声工作站检索2008年以来诊断左房增大的住