论文部分内容阅读
数据挖掘分类技术中的统计模型被分为产生式和判别式两大类,这两类模型是近几年数据挖掘和机器学习的研究热点之一。产生式模型学习的是联合概率,主要侧重各类数据的分布情况;判别式模型学习的是条件概率,主要侧重各类数据的分类边界。两类方法侧重点不同,表现出的分类性能也不同。为了充分利用两种分类器各自的优势,扬长避短,越来越多的学者们开始研究产生式和判别式的混合分类模型,解决单类分类器不能解决、难以解决或者难以有效解决的分类问题。本文首先介绍了三个典型的混合模型框架,分析了这几个框架下,研究人员已提出的产生式/判别式混合模型的具体形式及存在的问题。然后系统地论述了产生式模型和判别式模型的概念、学习方法、统计特性,并对产生式和判别式模型进行了详细的比较,分析了它们各自的适用领域。在此基础上,提出了两种有效的产生式/判别式混合分类器:(1)鉴于AdaBoost集成的思想,提出了基于AdaBoost的产生式与判别式混合分类算法。该算法在AdaBoost集成方法的每一轮中同时学习两个分类器:一个产生式分类器和一个判别式分类器,选择误差率较小的作为该轮中的个体分类器,然后对所有个体分类器采用加权的方法得到最终分类器。实验结果表明,该方法在准确率和收敛速度上都有明显的提高。(2)以符号回归的思想为基础,提出了基于遗传规划的产生式/判别式混合分类方法。该方法将产生式和判别式模型混合的表达式学习看作符号回归问题,利用遗传规划学习产生式和判别式的混合表达式。该方法是一种一般性方法,不仅避免了求取产生式和判别式部分的权重的问题,而且产生式和判别式混合的数学形式是根据数据集特征的变化而变化的,更具有适应性。实验结果证明,该混合模型要优于单个的产生式模型和单个的判别式模型,在一定程度上提高了分类的准确率。