论文部分内容阅读
粗糙集理论是研究不完整、不确定问题的一种有效的方法,它具有不需要先验知识,忠实于原始数据的优点。在数据挖掘与数据库知识发现领域,粗糙集理论与方法已经得到了大量成功的应用,并已经成为数据挖掘与数据库知识发现的主流方法之一。 经典的粗糙集的方法针对的是确定性的信息系统,很多算法也是基于这样的假设。但是在实际的应用中,由于种种原因,我们得到的数据都带有一定的不完备性和不确定性,对于这样的问题,经典的粗糙集学习算法便显得捉襟见肘。于是很多扩展的粗糙集模型便应运而生,如变精度的粗糙集模型、模糊粗糙集模型等等,它们将近似、概率统计的观点引入经典的粗糙集中,定义了新的属性约简、核以及相应的可辨识矩阵,并在一些应用中取得了可喜的成果。 本文先是介绍了一种基于知识粗糙度的多变量决策树的构建算法,它在一些情况下得到的决策树比ID3得到的简单。进一步,本文分析了不一致信息系统下的分布约简、最大分布约简和熵意义下约简的性质和它们之间的关系,得出了熵意义下约简与分布约简等价的结论。同时借助概率统计中的卡方分布,提出了一种衡量属性约简与决策属性的相关性的随机性强弱的方法,为从多个属性约简中选择较好的约简提供了一种参考的原则。 在某些应用的场合下,样本数据是不断的增加或者被修改的,这就要求当有新样本到来的时候,学习算法可以在原来的获得的知识的基础上,增量地学习,而非一概地重新运行挖掘算法。为此,本文基于最大分布约简的可辨识矩阵,提出了一种增量的学习算法,并将其应用于医疗数据的挖掘中,试验的结果说明了算法的正确性和有效性。