论文部分内容阅读
数据库知识发现是当前人工智能研究中较为重要的一个领域,关联规则挖掘是数据挖掘中应用最广的。传统的Apriori算法能产生所有的关联规则,但数量庞大,冗余度高。Wille等在1982年提出的概念格是进行数据挖掘和规则提取的一种有效工具。它的每个节点被称为是一个概念,概念的外延表示为属于这个概念的所有对象的集合,而内涵则表示为所有这些对象所共有的属性的集合。概念格在本质上描述了对象和属性之间的联系,表明了概念之间的泛化和例化关系,而它的Hasse图实现了对数据的可视化,作为数据分析和知识处理的形式化工具,概念格理论已被广泛地应用于信息检索、数据挖掘、软件工程等领域。 概念格的每个概念的内涵就是满足一定条件的属性集合,而概念格及其Hasse图又体现了概念的内涵及外延的泛化和例化关系,因此概念格可作为挖掘规则的自然平台。Godin等提出了由概念格提取蕴含规则的算法,但得到的规则的数目往往很大。Zaki等提出了用闭合集的最小生成器生成无冗余关联规则的算法,得到概念格上节点对之间的最简规则集,但存在部分信息丢失的可能。 在传统概念格上我们设计了一个提取关联规则的算法,我们的算法并不是提取所有的规则,而是提取规则集中的一个子集,称为规则产生集。与所有规则的集合相比,它的规模大大减少了,相应的挖掘效率提高了,但是从中仍可推出所有满足要求的规则。与传统的概念格上提取规则算法相比,该算法最终不生成每个规则的支持度、信任度,仅生成满足最小支持度、信任度的所有规则。但规则产生集的规模更小了,对于大型数据库中的低信任度挖掘情况(规则数量多)可产生较少的规则产生集。这样,提供给用户的是较少的而且是容易理解的规则的集合,用户可以根据自己的兴趣有选择地从产生集中推导出他需要的规则。存储规则所用的存储空间小,同时可提高推导规则时查找规则的速度。我们在产生的组约简规则产生集合的基础上,给出了一种存储规则的数据结构和用该约简规则产生集推导出一般规则产生集的算法。另外我们应用我们的方法设计了一个在学生成绩数据库中挖掘关联规则的系统,提出了一种对学生成绩类数据库进行挖掘的关于项集的确定方法,针对该系统的需要,我们设计了从规则产生集中获得单一后项关联规则的算法,方便为学校的分层次教学提供服务。