论文部分内容阅读
信息系统是数据的一种重要的表现形式,从信息系统中通过算法搜索隐藏信息的过程是知识发现的主要内容。真值表是一种特殊形式的信息系统,在数字电路的组合逻辑的应用中占有重要的地位。粒计算是近年发展起来的用来解决复杂问题、处理智能信息的一种新的计算方式。粗糙集是粒计算中重要的理论工具,可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。规则提取是粗糙集中知识发现的重要研究内容之一,是一种获得信息系统隐含知识的理论方法。本文从研究粒计算和粗糙集理论出发,研究信息系统的知识发现,重点讨论了现有的规则提取算法及所存在的缺陷,基于粒计算提出了新的信息系统的规则提取算法,并针对真值表提出了新的并行约简算法。具体工作如下:首先,针对信息系统的主要形式——决策表,利用粒计算中粒化的思想,从多粒度角度出发,定义判别向量,在由粗到细的粒度空间下分别对决策表进行分析,根据得出的判别向量的元素值提取出信息系统中的规则;而针对不一致决策表,需要将不一致决策表转换为一致决策表,然后进行规则提取。本文通过定理证明和实例分析说明了新算法的有效性,并用UCI数据集与现有的规则提取算法进行了对比试验,实验结果显示了新算法的有效性和快速性。然后,针对信息系统的特殊形式——真值表,首先分析了传统约简算法所存在的缺陷,并基于粒计算知识定义了判别矩阵,在多粒度空间下,根据得出的判别矩阵的元素值提取每个输出的最简规则,实现了真值表的约简,并通过并行计算加快了算法的效率。本文以发光二极管的真值表为例,阐述了新算法计算的具体过程,并比较了公式法、卡诺图法、Q-M算法等传统的真值表约简算法,通过数据集的测试表明新算法具有准确性和快速性。最后,在本文的基础上设计了一个简易的信息系统知识发现系统,该系统集成了现有的一些决策表规则提取算法,并且针对真值表设计了一个对真值表进行约简的子系统,便于用户操作。本文提出的3种信息系统知识发现算法,克服了现有算法的一些弊端,通过算法得到的决策规则在准确性和简易性方面得到了提升,实现了数据的快速规则提取过程。