基于粗糙集理论的数据挖掘算法研究

被引量 : 0次 | 上传用户:da_yu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入网络信息时代,随着计算机技术和网络技术的飞速发展,使得各个行业领域的信息急剧增加,如何从大量的、杂乱无章的数据中发现潜在的、有价值的、简洁的知识呢?数据挖掘(DM)和知识发现(KDD)技术应运而生。粗糙集理论与方法作为数据挖掘或者知识发现方法的一种,它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法最显著的区别是它不需要提供问题所需处理的数据集之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性,特别是模糊理论。 但是,粗糙集理论的基本运算是建立在求集合的并交补和求等价关系基础之上的,利用粗糙集理论挖掘一般决策表的最简规则或者所有规则是一个NP—Hard问题,NP—Hard问题是计算数学的一个普遍难题,它的解决依赖于某个NP—Hard问题的解决,因此,如何降低算法的复杂度成为限制粗糙集理论应用的一个根本性问题。 本文介绍了粗糙集理论的基本概念和扩展的粗糙集理论模型,研究了粗糙集理论进行数据挖掘算法的特点,通过证明一个半群一有限集合代数系统的可表示定理,将有限集合代数系统用一个与之同构的位向量代数系统来描述,将集合的并交补运算转化为位向量代数系统的与或非运算,该定理具有一定的普适性—基本上所有的基于粗糙集理论的各种算法都可以适用。在该定理的基础上,设计了一种基于粗糙集论的数据挖掘属性约简算法和规则挖掘算法,与一般的算法比较,时间复杂度大大降低;空间的复杂度降为一般算法的八分之一。利用该算法开发了一个原型系统RSDM和一个MATLAB仿真软件包,以进行数据挖掘的进一步研究和应用。 另一方面,粗糙挖掘算法的时间复杂度问题并没有得到完全的解决,因此本文介绍了基于消息传递的并行计算模型,在此模型基础上,利用MPICH并行计算软件包,初步研究了粗糙挖掘的并行计算算法。 现将本文的主要工作列举如下: 1.给出并证明有限集合代数系统可表示定理,设计基于粗糙集理论的数据挖掘(以下简称粗糙挖掘)串行实现算法。 2.介绍了一般知识发现过程,研究了粗糙挖掘的过程,设计开发了粗糙挖掘的原型系统RSDM和一个MATLAB粗糙挖掘软件包。 3.研究了基于Windows2000集群式系统上,采用消息传递的并行计算模型,利用MPI初步研究了基于粗糙理论的数据挖掘并行实现算法。
其他文献
人类社会的生存、繁衍和发展是建立在对物质资料的占有这一重要基础之上的。我国迅速推进的工业化、城市化,使得农业用地向非农业用地转变的速度加快,农业人口向非农业人口转
我国是煤炭生产大国,年产量居世界首位。但同时煤矿的安全生产形势非常严峻,尤其是瓦斯爆炸事故,造成大量的人员伤亡和财产损失,引起政府的高度重视。目前的煤矿安全监测监控
<正>1999年,国际内部审计师协会(IIA)对内部审计做出了全新的定义:"内部审计是一种独立、客观的保证和咨询活动。其目的在于为组织增加价值并提高它的运作效率。它采取系统化
信息时代的到来,计算机在各行各业得到了越来越广泛的应用。建设现代化的医院,信息管理的计算机化、网络化和数据高度共享化将是必不可少的条件,计算机应用于医院的日常管理
60年代初,随着西方科学技术和商业经济的迅猛发展,商业英语作为一专门用途英语日益受到社会各界的关注并得到迅速的发展。目前,世界各地的许多学校都开设商务英语课程。每年世界上
目的:对药典已有记载或文献报道凝血效果较好的20多种促凝中草药,通过体外、体内促凝实验及创面止血实验,筛选出凝血时间最短,促凝效果最好的中草药。为创面止血寻找一种方便
目的: 辐射损伤的自由基学说认为,辐射可导致机体体内产生大量的活性氧自由基,这些高活性自由基能够损伤细胞DNA、生物膜以及其它生物大分子,造成细胞过氧化损伤、细胞功能异
企业陷入财务危机都有一定的过程,在企业管理现实中,往往由于管理者的关注角度不全面或专业知识缺乏,难以准确及时地判定财务危机是否已经存在。实际上,当企业濒临财务危机或
<正>今年是五四运动100周年。100年,在人类历史长河中,如果算不上悠长的话,那也决不能说是短暂。关键是,五四运动之后的100年,中国发生了历史上从未有过的广泛而深刻的变化。
从测评工具、动态变化特征、影响因素、干预策略4个方面对乳腺癌病人支持性照顾需求进行综述,建议未来的研究可在充分了解支持性照顾在病人整个病程中的变化趋势上,分析影响