论文部分内容阅读
数据挖掘已经成为当前数据库研究开发和应用的热点,函数挖掘是数据挖掘技术的重要研究方向。进化计算常常被用于自动的函数关系发现,基因表达式编程(GEP)具有编码简单,适应性强的优点,同时继承了遗传算法的简单性和遗传编程求解复杂问题的能力,但传统GEP有可能陷入局部最优的未成熟收敛的“早熟”陷阱。为解决这一问题,本文做了如下主要工作: 1)分析了GEP早熟现象,用实验验证了早熟现象对函数挖掘的影响; 2)借鉴生物界的“返祖现象”,引入回溯机制,提出基于回溯策略的GEP算法(GEP with backtracking strategy,GEPBS);提出回溯检查点概念,设计了等比递增检查点序列和加速递增检查点序列用于约束回溯过程; 3)扩充基于回溯的GEP算法和四个抑制策略(a)退化因子(RF)策略,(b)比例回溯策略(GEP with proportional backtracking strategy,GEPPBS);(c)自适应的回溯策略(GEP with self-adaptive backtracking strategy,GEPSBS(d)疏剪策略。借鉴植物人工培育的“疏剪方法”,在传统GEP算法的进化过程中引入疏剪策略(GEP with pruning strategy,GEPPS)帮助种群进化活动; 4)分析进化过程中种群构成特点,提出种群多样性度量标准(Diversity Measure Criterion),并结合前几种早熟抑制策略提出基因表达式编程的种群多样性保持策略(GEP diversity retain strategy,GEPDRS); 5)通过若干实验验证了以上算法能有效地改善传统算法在进化过程中的早熟现象,提高GEP自动函数发现的成功率。 本文的组织如下:第一节介绍了数据挖掘的理论基础与应用范围,并介绍了函数发现的目标、一般步骤和挑战;第二节介绍了本文研究的进化计算背景,分析了遗传算法、遗传编程等典型模型的特点和应用范围;第三节介