论文部分内容阅读
近年来,随着微型机以及网络的普及和数据存储技术的发展,很多领域的数据库中都可储备了海量数据,通过利用数据挖掘工具来分析和进一步理解储备的数据,发现数据中后面的有用知识成为目前计算机领域中最为活跃的一个研究领域。显然,位列其中的关联规则挖掘是一个重要分支,具有相当重要的价值和十分广泛的领域应用前景。关联规则有正、负关联规则。目前而言,正关联规则研究已经受到了研究人员相当的关注,而对含负项的负规则的研究力度仍然不够。然而,在相当多研究领域中,事物否定因素也可以用来作为重要信息来源有着相当重要的作用,因此为了达到更客观决策的目的,我们完全有必要对负属性的关联进行研究。本文基于正关联规则和对负关联规则定义的修改,提出了关联模式表达式的左端或者右端或者左右端含有正、负混合项关联规则。现有负关联规则及算法数目不够多,而且大都基于Apriori思想的算法,需要对我们存储的数据集进行扫描多次,也会生成大量候选项集。本文提出了新方法,用来从正频繁项集中挖掘负频繁项集的算法,即e-NFIS算法。为了得到正频繁项集,我们借用FP_growth算法,利用这个算法中频繁模式树压缩存储数据结构,然后基于容斥原理的公式来计算挖掘出研究所需的含负项目的频繁项集。基于该算法的基本思想,算法具有了避免多次扫描数据库和生成大量候选项集的优点。在时间和空间的开销上跟目前的大多数据挖掘算法相比都具有一定的优势。实验证明,算法具有很好的效率。另外,论文对现有的研究含正、负混合项的负关联规则算法存在的问题,进行了探讨,在对目前算法分析的基础上。提出了如何将目前关联模式的一边或者两边含有正、负混合项负关联规则中出现的矛盾关联规则进行过滤,提出了正相关情况下有效选取关联规则的方法。论文另外对含负项的负关联规则的矛盾性进行了讨论。用例子证明,论文提出的改进方法是正确有效的。