论文部分内容阅读
Rough集理论是处理不确定、不精确和不完备信息的新型数学工具,在知识表示与推理、数据分析、数据挖掘和知识发现等领域得到了广泛的应用。基于Rough集的知识发现过程就是采用Rough集技术从数据中发现新颖、有用的、非平凡的模式的过程,其应用遍及医疗、金融、工业、语言处理等领域。因此,基于Rough集的知识发现研究,在理论和实际应用上,都有十分重要的价值和意义。 Rough集理论着重研究信息系统,特别是决策表的知识约简问题,以获得更简洁的信息表示,或用于预测未知对象决策属性的有用的规则。本文从知识约简及其算法,应用等方面进行详细研究,并取得如下创新性成果: 提出新的条件信息熵及其高效知识约简算法。基于现有条件信息熵的知识约简算法不仅其时间复杂度高,而且得到的核和约简可能并不是代数观点下的核和约简。为了从信息论的角度计算代数观点下的核和约简,分析了现有条件信息熵的不足,给出一个新的条件信息熵,它能够等价表示代数观点下的核和约简。使用新的条件信息熵,给出计算核、计算约简的算法。由于新的条件信息熵能够等价表示代数观点下的核和约简,因此采用这些算法计算的结果一定是代数观点下的核和约简。理论分析与实验结果说明,这些算法不仅是高效的,而且在搜索最小或次优约简方面,优于基于正区域和基于现有条件信息熵的知识约简算法。 提出决策表转换算法。一些计算核和约简的高效算法只对一致决策表适用,而对不一致决策表并不适用。针对此问题,给出将不一致决策表转换为一致决策表的算法,并且保持转换前后的核和约简集合不变。证明了该算法的正确性,并分析了该算法时间复杂度及其对知识约简的影响,分析结果表明转换算法不会增加知识约简算法的时间复杂度,而且转换后进行知识约简更有可能获得最小约简。 提出基于数据库系统的Rough模型中知识约简算法的扩展策略。基于数据库系统的Rough模型中的高效、可伸缩的知识约简算法只对一致决策表适用。将决策表转换后再使用此模型中的知识约简算法进行知识约简,这种策略可以