论文部分内容阅读
数据挖掘是近年来兴起的一个新的研究领域,是当今数据库系统研究和应用领域内的一个热点。关联规则挖掘和聚类是数据挖掘的重要模式,在聚类的结果上进行深入的关联规则挖掘,可以发现个体表现的数据特征与个体具备的因素间的关系。遗传算法具有优秀的鲁棒性和全局寻优能力,已越来越多的被应用到关联规则挖掘中。但是遗传算法的“早熟”现象和后期收敛速度下降的问题严重影响了关联规则挖掘的效率。因此,将遗传算法进行改进,并将其与聚类算法有效地结合,对关联规则挖掘效率的提高有着重要的意义。由于遗传算法的所有操作都是基于实际变量的编码进行的,将编码矩阵化使得遗传算法与聚类算法的结合成为可能,所以提出一种有效的基于矩阵的聚类算法是十分必要的。本文研究了数据挖掘、关联规则和遗传算法的基本原理,分析了多标记传播聚类算法的执行过程,在多标记思想的基础上,提出了一种基于加权矩阵的聚类算法——多标记激活聚类算法,并通过仿真分析了算法的性能。同时,本文研究了传统遗传算法,对其做出了如下改进:首先,提出了利用多标记激活聚类算法的结果智能确定支持度阈值的方法,并在此基础上改进了适应度函数;其次,结合生物的免疫机制,引入了个体免疫力的概念,提出并设计了抗体算子;最后,利用抗体算子对传统遗传算法中遗传操作的交叉算子和变异算子进行了改进。本文将改进的遗传算法应用到关联规则挖掘中,通过仿真验证了算法的可行性和有效性。仿真结果表明,本文提出的多标记激活算法性能更加优越,本文改进的遗传算法有效地提高了最优解精度和求解准确率,加快了收敛速度。在后续的科研工作中,多标记激活聚类算法的矩阵加权处理还有待进一步地研究和探讨;改进遗传算法中对个体免疫系统和抗体算子的完善也是今后继续研究的方向。