论文部分内容阅读
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。最大频繁项目集挖掘是数据挖掘的一个重要研究内容。最大频繁项目集挖掘的效率取决于搜索策略、数据子集的表示和对超集的检测等,通过分析现有的算法发现这些方面都可以进行优化来提高算法的执行效率。因此在分析已有算法和最大频繁项目集挖掘中的影响因素后提出了一种新的最大频繁项目集挖掘算法NDMFIA,算法中使用了以下三方面的优化策略:1.运用了一种剪枝策略来缩小搜索空间;2.借鉴了MAFIA算法中的PEP策略,它不仅可以缩小搜索空间,而且能够压缩FP-tree的规模;提出了频繁路径的概念,用它来提前发现最大频繁项目集,压缩FP-tree的规模;3.使用算法FpMAX中MFI-tree来保存最大频繁项目集,但是使用了一种投影的方法减少超集检测中项目匹配的次数。另外,目前大部分最大频繁项目集挖掘算法本身并不涉及任何领域知识,因此会产生许多对于发现主题无关的频繁项目集。将具体领域知识的约束条件加入最大频繁项目集挖掘算法中,在NDMFIA算法的基础上提出了约束最大频繁项目集挖掘算法NDCMFIA,该算法可以根据实际需要加入必要的约束条件来减少产生的最大频繁项目集的数量,提高挖掘结果的利用效率。最后对算法NDMFIA与算法MAFIA,FpMAX进行了分析和实验比较验证了算法NDMFIA的有效性。