论文部分内容阅读
从大量同构或异构的数据中,采用不同的算法挖掘出有用信息的过程,为决策分析提供指导,是数据挖掘技术的主要内容。在很多领域都有大量的学者在研究数据挖掘技术,同时也取得了不少非常优秀的研究成果。关联规则,作为数据挖掘技术的一个非常重要的分支,是从海量数据中提取出其中数据属性之间的有趣的各种关系,并利用这些关系为各种决策分析做指导,近年来在很多领域中都得到了广泛的研究,并且取得了不菲的成绩。进化算法是数据挖掘技术的一个分支,是从达尔文的进化论和孟德尔的遗传学中获得灵感,将不同物种之间的竞争、适者生存、遗传的规律引入到解决工程技术问题,通过生成初始解、再对初始解进行繁殖、竞争、遗传的过程,直到逼近问题的最优解。基因表达式编程(Gene Expression Programming, GEP),作为进化算法的新成员,结合了原始进化成员遗传算法(Genetic Algorithm, GA)和遗传编程(Genetic Programming,GP)的优势,在解决很多领域的问题都有突出的贡献。本文先是对数据挖掘技术相关概念、算法、应用、分类等进行了介绍,其中主要介绍了关联规则算法的相关原理、算法流程、算法分类等。接着对传统基因表达式编程进行了概述,分别对构成GEP编程的五大部分进行了介绍:编码、适应度函数、遗传操作、数值常量,并进行了两处改进:针对传统GEP算法产生初始种群是随机的,容易导致初代种群分布不均匀,因而可能会导致在遗传过程中个体多样性受限,使得算法失败或者收敛到局部最优解的问题,进行了种群初始化的均匀化算法改进;针对在传统GEP进行个体评测时,需要不断进行基因表达式树的创建、遍历、释放,在解决复杂问题时,消耗大量时间空间的问题,进行了无表达式树的个体适应度函数值计算方法的改进。改进前后,对算法进行了实验分析对比。最后用改进的基因表达式编程(GEP)对高校学生成绩信息进行关联规则数据挖掘,对学生成绩信息进行分析,挖掘出学生成绩信息中课程与课程之间的关系,以及课程与综合成绩之间的关系,为提高学生成绩、提升教学质量做指导,为课程安排计划提供支持。