论文部分内容阅读
数据挖掘是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。数据挖掘技术经过十多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规则挖掘、聚类规则挖掘为主要形式的,以数据库技术、统计学、人工智能、可视化技术和信息技术为主要工具的多学科交叉的应用技术。从最初的商业应用逐渐扩展到医疗、金融、生物、电信、军事、体育等诸多领域。数据挖掘成为越来越多的科学家、研究人员、工程应用人员、商人、医生所关注的对象。
分类规则挖掘则是通过对训练样本数据集的学习构造分类规则的过程,是数据挖掘、知识发现的一个重要方面。分类规则挖掘的实质是希望得到高准确性、易于理解的和有趣的分类规则。分类规则作为数据挖掘的一个重要分支,在过去的十多年中引起很多来自不同领域的学者的注意,学者们提出了以信息论为基础的决策树算法、以概率论为基础的贝叶斯分类方法、以神经科学为基础的神经网络方法等等,这些算法基本上都是确定性算法。以自然进化为基础的演化计算技术因为其智能性、并行性、不确定性等诸多特点成为其中一个特殊的分支。
演化计算中最重要的分支是遗传算法。遗传程序设计是遗传算法的一个变体。遗传算法和遗传程序设计两种技术虽然都遵循自然界优胜劣汰的基本原理,但是它们最初在工程应用领域具有不同的功能:遗传算法主要用于函数优化,而遗传程序设计则主要用于建模。近年来演化计算在数据挖掘,特别是分类规则挖掘中的应用研究已经取得了相当大的发展。基因表达式编程是C.Ferreira发明的一种新的遗传算法。基因表达式编程结合了遗传算法和遗传程序设计的优点,并克服了它们的缺点,在数学建模方面取得了非常好的效果。
本文以基因表达式编程和分类规则挖掘作为主要对象,研究基因表达式编程在分类规则挖掘应用中的几个重要问题。
本文在第一章介绍了论文的选题、研究意义和国内外分类规则挖掘和演化算法的研究现状。然后在第二章中简单介绍了数据挖掘和分类规则挖掘的基本概念,给出了目前常用的分类方法、存在的基本问题和解决的方向,并以决策树算法为例进行详细的分析和实现。第三章首先讨论了演化计算的基本概念及分类,然后分别对遗传算法、遗传程序设计和基因表达式程序设计的编码方法、初始群体设定、适应度函数设计及遗传操作算子的设计等问题进行了详细的分析。第四部分是基因表达式程序设计的缺陷及改进,对GEP的编码及解码方法进行了基本介绍,重点研究了GEP存在的局限性,并提出了改进GEP效率的方法,最后用实验验证其有效性。第五部分用GEP挖掘分类规则,先对用GEP进行分类规则挖掘的编码、遗传操作算子等细节问题进行了阐述,再通过实验证明GEP进行分类的优越性。在第六章,总结了论文的主要工作及指出了后续的工作。