论文部分内容阅读
基于效用的序列模式挖掘是数据挖掘领域的一个新兴课题。在许多实际应用中发挥着重要作用,如数据分析,智能校园等。目前有研究者已经提出了一些基于效用的序列模式挖掘算法。但是,这些算法仅考虑了正序列模式(Positive Sequential Patterns,PSP),并未考虑到负序列模式(Negative Sequential Patterns,NSP)。而在实际应用中,负序列模式中缺失的项可能会提供更有价值的信息。因此,本文对基于效用的负序列模式挖掘方法进行了研究,具体研究内容如下:1.基于效用的负序列模式挖掘算法。本文提出了一种新的基于效用的负序列模式挖掘算方法——HUNSPM(High Utility Negative Sequential Patterns Mining)算法,该算法基于高效的e-NSP算法和USpan算法。首先,通过USpan算法挖掘出所有的高效用正序列模式。然后,在这些高效用正序列模式的基础上生成高效用负候选序列,再通过新的剪枝策略淘汰掉不符合条件的负候选序列。最后,采用负序列效用值计算方法计算出高效用负候选序列的效用值,进而筛选出满足最小效用阈值的序列,从而得到所有的高效用负序列模式。该算法主要解决了两个关键问题:如何生成高效用负候选序列和如何计算高效用负序列的效用值。2.基于多最小效用值的负序列模式挖掘算法。HUNSPM算法是采用单最小效用阈值挖掘满足条件的序列模式,而关于最小效用阈值的设定是一个比较棘手的问题。因此,本文提出了多最小效用值的负序列模式挖掘方法MUNSPM(Multiple Utility Negative Sequential Patterns Mining),为每个项设置了一个最小效用阈值。该算法是在HUNSPM算法的基础上加入了负序列的最小效用阈值设置方法,从而挖掘出基于多最小效用值的负序列模式,为管理者提供更加全面的信息。