论文部分内容阅读
随着计算机应用及Internet的日益普及,“丰富的数据与贫乏的知识”问题日见突出,不同领域的人们都期待着从这些数据中得到自己想要的答案,将信息变为知识。由此产生了一个新的领域—知识工程。知识表示问题是知识工程要研究的根本问题之一,W3C论坛的主席Berners-lee指出,知识表示代表了一种很好的思路,而知识获取则是知识工程的关键工序。 本文主要研究了知识表示与获取的理论与方法,主要内容如下: (1) 粗糙集(Rough Set,RS)理论的研究。运用粗糙集方法对数据库中潜在信息的挖掘常常采用一般约简的方法来计算出所有的分类规则,这种方法对于大型数据库来说计算量很大而且不能满足大型数据库动态增长的需要。本文运用动态约简的基本思想把全域划分成一些共享某些共同特征的子域,采用粗糙集方法找到这些子域的约简,然后发现整个表中的动态约简集,提取出稳定的分类规则,最后用这些规则对在更新过程中出现的新对象进行分类。 (2) 概念格(Concept Lattice)的研究。概念格也叫做形式概念分析,是数据分析与规则提取的一种有效工具。基于概念格的各种规则提取方法已得到广泛运用,特别是在数据库知识发现中的运用已相当成熟。本文描述了一种运用概念格技术挖掘关联规则的有效方法,首先需要将频繁项集及其支持度存储在概念格上,然后在创建好的概念格上提取关联规则,最后阐述了数据增加以后概念格的维护技术。 (3) 粗糙集与概念格的联系。粗糙集与概念格在数据分析方面有相似之处,并且粗糙集的一些概念如等价类,上、下近似等都可以通过概念格来表示。另外,实际应用中需要处理的海量数据使得直接基于概念格的规则提取冗余度过大,而粗糙集理论在数据预处理和不确定性规则提取等方面表现出很强的优势。本文论述了概念格与粗糙集之间的联系,提出了将粗糙集理论应用于概念格的层次结构生成和建立数据间泛化和特化关系的模型。这种方法不仅大大提高了构造概念格算法的效率,而且有助于提高概念格上规则提取的效率。