论文部分内容阅读
关联规则挖掘主要是研究数据属性之间的关联关系,挖掘出的规则在企业决策、个性化推荐、产品设计上都有很高的价值。目前关联规则挖掘领域使用最多的是Apriori算法和遗传算法。但Apriori算法的不足是需要多次扫描事务数据库与生成了大量的频繁项目集;遗传算法存在易陷入局部收敛,收敛速度慢的弊端。本文针对传统算法在关联规则挖掘领域出现的弊端,结合国内外最新的文献,研究工作主要包括以下内容:论文首先介绍了数据挖掘的功能、过程、方法、应用与研究热点等内容。随后阐述了关联规则挖掘的基本步骤,通过一个具体实例和流程图详细介绍了经典Apriori算法的运行过程和存在的不足,在此基础上归纳总结了一些关联规则挖掘领域的优化算法及其思想。其次详细阐述了遗传算法的基本思想,介绍了基本处理流程和基本要素,继而阐明了算法的参数设置方法,在此基础上详细阐述了遗传算法用于关联规则挖掘的可行性与具体步骤。第三是认真学习了人工智能中前沿理论——帝国主义竞争算法(Imperialistcompetitive algorithm,ICA)的思想,国内外的应用情况与运行流程。国内外的文献及实验都证明了该算法可以很快收敛到最优解,不易陷入局部最优。在此基础上提出了基于帝国主义竞争算法的关联规则挖掘方案,详细阐述了使用ICA进行关联规则挖掘的步骤,并使用UCI公开数据集对方案进行了仿真验证。实验结果表明,与GA算法相比,ICA算法在关联规则挖掘上更能达到全局最优,挖掘规则精度更高。最后,本文在学习研究关联规则领域的国内外文献和免疫遗传算法(Immunegenetic algorithm,IGA)理论基础上,针对一篇最新智能算法在关联规则挖掘上存运行时间较长的弊端,提出了三段式编码的改进IGA关联规则挖掘算法。使用三段式编码方案来降低分割点的选取对挖掘结果的影响,使用基于矢量矩浓度的的选择方案来降低算法的运行时间,使用了自适应的交叉与变异因子降低人工设置参数对挖掘结果的干扰。实验仿真结果表明,本文改进的算法在关联规则连续属性挖掘上不降低精度的情况下具有挖掘时间短的优势。