论文部分内容阅读
为了充分利用并行分布式计算资源解决大规模现实世界问题,并行处理技术和模块化结构已经被广泛地引入了模式识别领域中的分类器设计。本文研究了一种基于训练集划分的问题分解方法和分类器组合过程,即最小最大模块化(M3)分类器。
我们试图回答这样两个问题,一个是如何进行有效的问题分解和分类结果组合,另一个是如何获得更好的分类效果。为此我们研究了两个相关的过程,一个是多类问题到二类问题的分解和对应的组合过程。一个是将二类问题进一步分解为更小规模的二类问题。本文的主要贡献在以下几个方面。
首次将模块化过程引入k-NN算法,提出了M3-k-NN算法,拓宽了分类器组合算法的应用领域。大规模文本分类的实验结果表明了这种处理的有效性。
对于二类问题的M3分解算法,针对测试过程,我们提出了一种对称选择算法,能够将测试中所调用的二类分类器的数量从二次复杂度降到线性复杂度。从而大大改善了分类器的测试性能。
对于二类问题分解中的训练集划分,我们提出了四种简单的划分策超平面切割、K均值算法、逆向K均值和扩散抽取过程。实验表明,我们提出的划分策略都可以在一定程度上保证划分模块增多时分类精度的稳定性。
对于分解的二类问题,在使用一种简化的对称选择算法的基础上,我们提出了一种自重组学习算法,能够在并行或者模块化处理模式下同步完成训练集较为优化的划分和训练过程。该方法的任务分解策略继承了传统的最小最大模块化分解的弹性,易于实现灵活分解和平衡化的学习。同时也能有效改善划分效果,稳步提升分类性能。
对于多类问题,我们考察了“一对一”多类问题分解模式下的分类器组合,提出了一种一般意义下的组合策略,并证明,传统的M3和最多类获胜(循环赛规则学习,R3)组合为这种一般过程的两个极端情形。针对这种一般化过程,我们提出了一种一致的模块选择算法,能够显著提高测试效率。此外,针对M3多类组合的测试,我们提出了三种模块选择算法,并证明,这些选择算法能够将测试效率由原来的二次复杂度,降低到线性复杂度。此外,我们证明,简化的二叉树选择算法和DAG组合策略等价。
针对二值分类器的多类组合过程,我们提出了一种与基分类器特征无关的概率模型。我们证明,通过一个参数化的表示,可以定量地描述分类器过程的一致性行为。从而给各个二值分类器的训练和组合提供了理论指导。此外,我们还将这种模型应用于基分类器的容错性分析。最后,我们进一步将分类器的二类组合推广到多类,提出了K-M分解组合算法,并研究了这种分解组合的分类特性。