论文部分内容阅读
分类是数据挖掘中一个重要内容,它找出描述并区分数据类或概念的模型,以便能够使用模型预测类标记未知的对象类。它主要用于提取重要数据类的模型或预测未来的数据趋势。目前的主要分类方法有判定树归纳分类、贝叶斯分类、神经网络分类、遗传算法分类等等。这些分类方法各有特点,适用于不同的领域,目前尚未发现有一种方法对所有数据都优于其他方法。
进化计算(EC)是一种模拟生物进化过程与机制求解问题的自组织、自适应性人工智能技术。结合了达尔文的自然选择与孟德尔的遗传变异理论,将生物进化中的四种基本形式:繁殖、变异、竞争和选择引入到算法的过程中,指导算法的进行。它已经广泛应用于调度规划、机器学习、图像处理和模式识别、最优控制等领域。它在数据挖掘的分类中也有一些初步应用。
本文将详细阐明什么是进化计算、它的概念以及分析其理论基础,并进一步阐述共同进化计算的主要内容。讨论目前分类的评价标准和主要算法,如ID3、C4.5和EC算法,在此基础上提出一个基于共同进化计算的分类算法(CBCEC),并详细介绍该算法的主要原理和过程。使用WEKA数据挖掘平台在多个公共数据库上对上述的几个算法进行详细的性能比较,得出了结论:CBCEC算法分类准确度高,并且可以得到简洁的可理解性强的规则。同时针对如何挖掘用户兴趣的规则,通过修改CBCEC的适应度评价函数,提出适用于挖掘用户兴趣度较高的规则算法,实验证明了该算法的有效性和适用性。
最后结合某省的车辆交通规费系统,提出一个基于J2EE的数据挖掘体系结构,并应用本文提出的共同进化分类算法(CBCEC),给出了一个实例,得到了理想的结果,进一步验证了具有较好的分类预测能力。