论文部分内容阅读
数据挖掘是当今计算机应用技术和理论研究中最热门的领域之一。数据挖掘技术经过十多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规则挖掘、聚类规则挖掘为主要形式的,以数据库技术、统计学、人工智能、可视化技术和信息技术为主要工具的多学科交叉的应用技术。从最初的商业应用逐渐扩展到医疗、金融、生物、电信、军事、体育等诸多领域。数据挖掘成为越来越多的科学家、研究人员、工程应用人员、商人、医生所关注的对象。 分类规则作为数据挖掘的一个重要分支,在过去的十多年中引起很多来自不同领域的学者的注意,学者们提出了以信息论为基础的决策树算法、以概率论为基础的贝叶斯分类方法,以神经科学为基础的神经网络方法等等,这些算法基本上都是确定性算法。以自然进化为基础的演化计算技术因为其智能性、并行性、不确定性等诸多特点成为其中一个特殊的分支。 演化计算模拟自然演化的特点,借鉴达尔文的物竞天择、优胜劣汰、适者生存的自然选择和自然遗传的机理,采用高效并行全局搜索方法,在许多领域取得了良好的效果,从而确立了它在21世纪的智能计算技术中的重要地位。演化计算中最重要的分支是遗传算法。遗传程序设计是遗传算法的一个变体。遗传算法和遗传程序设计两种技术虽然都遵循自然界优胜劣汰的基本原理,但是它们最初在工程应用领域具有不同的功能:遗传算法主要用于函数优化,而遗传程序设计则主要用于建模。以遗传算法和遗传程序设计为代表的演化计算在工程应用等优化问题中与传统的数学方法相比,表现出非常明显的优势。近年来演化计算在数据挖掘,特别是分类规则挖掘中的应用研究已经取得了相当大的发展。虽然很多学者认为演化计算只是优化和搜索算法,但是它在数据挖掘领域的良好效果已经使其成为数据挖掘中不可或缺的一个重要工具。 基因表达式编程是C.Ferreira发明的一种新的遗传算法。基因表达式编程结合了遗传算法和遗传程序设计的优点,并克服了它们的缺点,在数学建模方面取得了非常好的效果。正因为其优点和良好的效果,使得基因表达式编程在并不漫长的时间里引起了演化计算领域的广泛关注甚至争议。本文详细介绍了基因表达式编程的基本技术,分析了其具有较高效率的根本原因在于其编码方式所具有的独特优势。本文通过分析演化计算中的多种技术,特别是遗传程序设计及基于语法的遗传程序设计等技术的特点,充分证明了基因表达式编程具有更好的特性和更高的效率。 本文以基因表达式编程和分类规则挖掘作为主要对象,研究基因表达式编程在分类规