论文部分内容阅读
近年来,多分类器融合技术已成为模式识别和机器学习领域研究的热点之一。多分类器融合比单个分类器更有效的理由是融合中的分类器不仅是精确的而且是错误差异的,在保证分类能力的前提下,融合中个体分类器数目越少,系统的复杂性越低。早期构造的个体分类器是直接生成的,但实际中不能保证错误是差异的,所以生成的个体分类器可能是冗余的。为此,人们又提出了“过产生,再选择”的策略。过产生阶段采用直接策略生成融合中的个体分类器;再选择阶段是对过产生阶段的优化,通过优化产生分类效果好的分类器系统。研究者希望能够利用核聚类以及差异性度量对分类器融合性能的预测来指导多分类器的选择过程。本文针对分类器融合的两个目标:融合后的分类器是精确的;融合中的个体分类器是错误差异的。对个体分类器选择算法进行了研究。本文的主要工作包括:(1)提出了一种基于差异性度量的选择性分类器集成方法(Diversity measurebased selected ensemble DMSE),将周志华的选择性集成方法SEME(Selectiveensemble of multiple eigenspaces)引入到多分类器选择中,而且利用了差异性度量的方法,对融合中的分类器进行了选择。实验结果表明,该算法在减少用于融合的分类器数目的同时,保证了准确率比bagging高。(2)提出了一种基于核聚类的多分类器选择算法(Kernel cluster based selectedensemble KCSE),将无监督分类方法核聚类引入到多分类器选择系统中,利用核聚类的准确聚类将特征空间划分为小的区域,从而实现对每个分类器性能的度量。理论分析和实验结果表明,该算法可以获得不错的分类效果。(3)从个体分类器准确率和差异性两方面考虑,提出了一种基于核聚类和差异性度量的多分类器选择算法(Kernel cluster and diversity measure based selectedensemble KCDMSE)。将核聚类和差异性度量分别引入到分类器的选择中,第一阶段利用核聚类进行准确率选择中,我们利用了分类器在某一样本区域识别率比较好,而其他区域差的特性,计算了识别率。第二阶段的差异性选择中,利用了融合的分类器必须有差异才能促进融合,对分类器集进行了选择。通过两次选择保证了个体分类器具有较高的识别准确率和错误差异性,实现了多分类器融合系统的简化和优化。UCI数据库和ELENA数据库上的实验表明,该算法具有较高的分类准确率。