论文部分内容阅读
频繁模式挖掘是数据挖掘和知识发现领域的重要研究内容之一,它是指从数据库中挖掘出频繁出现的模式,包括频繁项集、频繁子序列(又称序列模式)和频繁子结构。作为频繁模式挖掘的补充,负频繁模式挖掘不仅考虑了已发生的事件,还考虑了未发生事件,为数据分析提供了新的角度,能够更深入地分析和理解数据中的潜在含义,在许多应用中甚至起着不可替代的作用。近几年来,负频繁模式挖掘已经应用于诸多领域。然而,由于实际应用中不同项的实际发生频率不同,而传统的负频繁模式挖掘算法往往局限于单一的最小支持度,无法反映出挖掘对象本身的特性,由此我们为每个项设定了一个支持度,即多支持度。本文利用负频繁模式挖掘算法以及多支持度的频繁模式挖掘算法来研究基于多支持度的负频繁模式挖掘算法,具体内容如下:1、多支持度的频繁项集挖掘算法。本文基于经典的单支持度的Apriori算法提出了一种新的多支持度频繁项集挖掘算法MSB_apriori,该方法先用Apriori算法根据最小的支持度阈值挖掘得到单最小支持度下的频繁项集,再对这些项集进行筛选,筛选出满足其自身最小支持度的频繁项集。因为此算法耗时长,我们又提出了它的优化算法MSB_apriori+,该方法主要不同之处在于挖掘之前先根据每个项的最小支持度阈值对所有的项进行升序排列,在整个挖掘过程中所有项集中的项都保持此顺序,这样可以大大减少侯选项集的生成数量。与MSapriori算法相比,这两个算法理解起来要容易很多,而且适合于支持度突然发生改变的情况。2、多支持度的负频繁项集挖掘方法。针对现有负频繁项集挖掘算法基本都采用单最小支持度,本文提出了多支持度的负频繁项集挖掘方法E-msNFIS。该方法先用MSapriori算法挖掘出多支持度下的频繁项集,再基于这些项集生成相应的负侯选项集,最后筛选出满足支持度要求的负频繁项集。本文还提出了负项集的最小支持度设置方法。与单支持度的E-NFIS算法进行比较,该算法可以挖掘出更多有价值的负频繁项集,为用户的决策制定提供了更多信息。3、多支持度的负序列模式挖掘方法。针对现有负序列模式挖掘算法基本都采用单最小支持度,本文提出了多支持度的负序列模式挖掘方法E-msNSP。该方法先用多最小支持度的MS-GSP算法挖掘出所有的正序列模式,再基于这些正模式生成相应的负侯选序列,最后筛选出满足支持度要求的负序列模式。本文还提出了负元素以及负序列的最小支持度设置方法。通过实验比较了正序列模式以及基于正序列模式挖掘得到的负序列模式的耗时和数量,结果显示该方法挖掘出的负序列模式数量多,用时少,非常高效。4、带负利润项的高效用序列模式挖掘。效用(利润)与支持度相比,在很多实际应用中更能反映出商业价值。传统的效用序列模式挖掘算法仅局限于项的正利润,而没有提及负利润,而负利润在许多实际应用中同样很重要。为此,本文将负利润项加入到序列模式挖掘研究中,提出了带负利润项的高效用序列模式挖掘算法HUSPNIV。每个项都有2个属性,即单项利润和购买数量。该算法采用q-序列词典树来构造和组织q-序列,采用I-连接和S-连接的方式基于父结点的效用值来生成孩子结点的效用值,并提出了三种剪枝方法,最后通过最小效用阈值挖掘出高效用序列模式,帮助用户更好的制定决策。