论文部分内容阅读
随着计算机和互联网技术的迅猛发展,产生了大量的数据,这些数据存在许多有趣的信息,使用数据挖掘技术可以有效的挖掘并分析这些信息,可以完成推荐、预测、分类等任务。在数据挖掘领域中,高效用模式挖掘起着重要的作用,高效用模式是指效用值大于用户指定的最小效用值的所有模式。高效用模式中存储着大量有效的信息,但是仍存在大量冗余模式。研究学者提出的闭高效用模式可以有效减少冗余模式,如果一个模式不存在与自身的支持度相同的超集,且效用值大于最小效用值,那么该模式就是一个闭高效用模式。在实际应用中,高效用模式的挖掘需要多次进行最小效用值尝试,这会产生大量的调试时间,使用Top-K高效用模式可以有效解决该问题,该模式是指用户指定的k个效用值最大的模式。闭高效用模式尽管解决了冗余模式问题,但仍会存在最小效用值调试困难的问题,而Top-K高效用模式中仍存在大量冗余模式,针对这两个问题,首先对紧凑高效用模式进行研究与分析;然后提出Top-K闭高效用模式挖掘算法TKCU-Miner,并基于TKCU-Miner算法提出Top-K闭高效用关联规则挖掘算法;最后设计实并现基于Top-K闭高效用模式挖掘方法的验证平台。主要研究内容如下:(1)介绍模式挖掘的研究背景,包括频繁模式挖掘和高效用模式挖掘的特点和相关方法。对紧凑高效用模式的相关概念和特点进行总结,汇总并分析Top-K高效用模式、闭高效用模式、最大高效用模式三种紧凑高效用模式的相关挖掘方法。对其他类型的高效用模式的特点及方法进行分析,包括高平均效用模式,序列高效用模式。(2)研究并实现Top-K闭高效用模式的一阶段挖掘算法TKCU-Miner,该算法使用改进的uList结构,计算模式的真实和剩余效用来剪枝遍历空间,并使用“验证前缀项-添加后缀项”的方法进行闭高效用模式生成,对结果集存储的Top-K缓存区内容实时更新,同时更新最小效用值。最后通过实验验证算法性能。(3)研究并实现基于Top-K闭高效用模式的关联规则挖掘方法,使用效用矩阵存储用于计算效用置信度的数据信息,并设计列表索引的方法生成Top-K闭高效用关联规则,同时避免重复关联规则的生成。最后通过不同数据集对规则的分布进行分析。(4)设计并实现基于Top-K闭高效用模式挖掘方法的验证平台,集成了上述的两个算法,并设计了预处理模块、高效用挖掘模块、关联规则模块和预测模块。平台使用了用户到访行为数据,通过预处理模块进行数据的格式处理,模式挖掘模块对用户到访时间进行分析,在关联规则模块生成预测模块所使用的规则,在预测模块使用关联规则,对用户到访地点进行预测。