论文部分内容阅读
从数据集中对对象进行归纳学习和分类是人工智能中很重要的领域,旨在发现数据中隐藏的、未知的、潜在有用的知识,本质是在大的数据集合中寻找数据间的规则及普遍模式。近几年来,已经研究了很多基于归纳学习的理论,发展了许多技术来处理不精确的数据,其中最成功的是粗糙集理论,它是关于数据推理的一个强大的工具,已经被成功地应用于机器学习、知识获取、模式识别和决策支持系统等领域。粗糙集理论是1982年由波兰数学家Z. Pawlak教授提出来的,它是一种处理不完整、不确定信息的新型数学工具。由于粗糙集理论是利用数据集上的等价关系对知识的不确定程度进行度量,而无需提供所需处理的数据集合之外的任何先验信息,这样就避免了对知识的主观评价所带来的误差。所以利用粗糙集理论进行决策研究具有十分广泛的应用前景。属性约简和属性值约简是利用粗糙集理论从决策表中挖掘决策规则的基础,挖掘决策规则是粗糙集理论的重要研究领域之一。本文根据条件属性的重要度和区分矩阵来进行条件属性约简,找出有效约简。同时定义了决策表的不一致度,并根据条件属性重要度来进行属性值约简,在保持决策表不一致度不增加的前提下挖掘出决策规则,该决策规则集满足独立性、覆盖全域性、可接受性和一致性,即决策规则集为决策算法。本文还对粗糙集流网络进行了研究,并将粗糙集流网络、决策算法和贝叶斯定理结合了起来,最后构建了基于粗糙集和贝叶斯定理相结合的风险规则挖掘模型。本文主要做了以下工作:(1)研究了粗糙集理论的基本知识,介绍了粗糙集理论的几个核心概念,提出了条件属性重要度和决策表不一致度的概念,为以后的属性约简和决策算法的挖掘奠定了基础。(2)详细讨论了决策算法的性质,通过研究发现,决策算法满足全概率公式和贝叶斯定理。通过基于粗糙集的贝叶斯公式,只需要计算决策规则的强度,然后再计算每条决策规则的置信度和覆盖度即可,大大简化了计算的过程。(3)在区分矩阵的基础上,利用条件属性重要度进行属性约简,在保证不改变决策表不一致度的前提下,给出了一种基于粗糙集的决策算法挖掘方法。该方法提取的决策算法是由决策表生成的覆盖所有对象的最小规则集。这也是本文的一个创新点。(4)研究了一种新的决策进程的数学模型—粗糙集流网络,整个流网络就是一个决策算法,流网络满足贝叶斯公式,还研究了流网络的性质,并且把分支中强度、置信度和覆盖度的概念扩展到了路径和连接当中。(5)利用粗糙集对数据进行约简,利用贝叶斯定理训练约简后的数据,将粗糙集理论和贝叶斯定理相结合,运用到IT项目的风险管理中,构建了基于粗糙集与贝叶斯定理相结合的风险规则挖掘模型。利用粗糙集理论进行决策分析还有许多问题值得探讨,本论文的研究肯定还有许多不完善的地方,相关工作还有待进一步研究。