论文部分内容阅读
关联规则是最常见的知识表示方法之一,频繁项集挖掘是关联规则挖掘中的重要课题,它已经被广泛的应用于各个领域。概念格是一个非常有用的形式分析工具,通过Hasse图它可以生动、简洁的表现这些概念之间的泛化和特化关系。另外,概念格中的每个节点本质上是一个频繁项目集,并且频繁项集和概念格的内涵之间有一种一一对应的关系。因此,利用概念格来挖掘频繁项集和关联规则显得水到渠成。基于概念格的频繁项集与关联规则的挖掘,很多学者对此已经进行了深入的研究并取得了很大的进步,但大部分都是假定由属性组成概念格中内涵的重要性均匀平等、同等重要,而基于这种思想的概念格提取关联规则存在着明显的不足:(1)这将导致组合爆炸和冗余问题;(2)由于建格时没有考虑到属性重要性的差别,形成包含所有属性的概念格的结点,因此建格时间长、效率低。针对以上不足,本文首先提出一个新的概念——内涵区别度,基于内涵区别度来建造概念格将有力的减少格中的频繁项集的数量,主要原因是区别度低的内涵将不参与格的构造,这在一定的程度上缓和了组合爆炸的问题,使关联规则提取的难度系数也有所降低。其次本文给出了基于内涵区别度的格的构造算法,不再是建造概念格的每一个节点都扫描数据库,而是有条件的扫描数据库并计算和重置区别度的值,这就减少了数据库扫描的次数,从而减少了生成概念格的时间,提高效率。另外,改进了基于概念格的关联规则提取的算法,将置信度剪枝的概念引入基于概念格的关联规则提取中,减少了关联规则提取时置信度计算的时间,从而有效的提高了关联规则提取的效率,最后将本文提出的改进算法应用了基于区别度概念格的关联规则提取中,并给出了相应的提取算法。基于概念格的关联规则的挖掘关键在于概念格的构造,首先将频繁项集和内涵区别度存储在格上,然后在创建好的概念格上根据规则生成关联规则。本文的主要贡献如下:1)提出内涵区别度的概念,基于内涵区别度建造概念格将有力的减少频繁项集的数目,缓和组合爆炸的问题;2)给出了基于区别度概念格的频繁项目集提取算法,在构造概念格时不再每一个节点的生成都扫描数据库,减少了扫描数据库的次数,提高了时间效率;3)改进了基于概念格的关联规则提取的算法,将置信度剪枝的概念引入基于概念格的关联规则提取中,从而有效的提高了关联规则提取的效率;4)将本文提出的改进算法应用了基于区别度概念格的关联规则提取中,并给出了相应的提取的算法。