最小最大模块化分类器研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:a287924625
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了充分利用并行分布式计算资源解决大规模现实世界问题,并行处理技术和模块化结构已经被广泛地引入了模式识别领域中的分类器设计。本文研究了一种基于训练集划分的问题分解方法和分类器组合过程,即最小最大模块化(M3)分类器。 我们试图回答这样两个问题,一个是如何进行有效的问题分解和分类结果组合,另一个是如何获得更好的分类效果。为此我们研究了两个相关的过程,一个是多类问题到二类问题的分解和对应的组合过程。一个是将二类问题进一步分解为更小规模的二类问题。本文的主要贡献在以下几个方面。 首次将模块化过程引入k-NN算法,提出了M3-k-NN算法,拓宽了分类器组合算法的应用领域。大规模文本分类的实验结果表明了这种处理的有效性。 对于二类问题的M3分解算法,针对测试过程,我们提出了一种对称选择算法,能够将测试中所调用的二类分类器的数量从二次复杂度降到线性复杂度。从而大大改善了分类器的测试性能。 对于二类问题分解中的训练集划分,我们提出了四种简单的划分策超平面切割、K均值算法、逆向K均值和扩散抽取过程。实验表明,我们提出的划分策略都可以在一定程度上保证划分模块增多时分类精度的稳定性。 对于分解的二类问题,在使用一种简化的对称选择算法的基础上,我们提出了一种自重组学习算法,能够在并行或者模块化处理模式下同步完成训练集较为优化的划分和训练过程。该方法的任务分解策略继承了传统的最小最大模块化分解的弹性,易于实现灵活分解和平衡化的学习。同时也能有效改善划分效果,稳步提升分类性能。 对于多类问题,我们考察了“一对一”多类问题分解模式下的分类器组合,提出了一种一般意义下的组合策略,并证明,传统的M3和最多类获胜(循环赛规则学习,R3)组合为这种一般过程的两个极端情形。针对这种一般化过程,我们提出了一种一致的模块选择算法,能够显著提高测试效率。此外,针对M3多类组合的测试,我们提出了三种模块选择算法,并证明,这些选择算法能够将测试效率由原来的二次复杂度,降低到线性复杂度。此外,我们证明,简化的二叉树选择算法和DAG组合策略等价。 针对二值分类器的多类组合过程,我们提出了一种与基分类器特征无关的概率模型。我们证明,通过一个参数化的表示,可以定量地描述分类器过程的一致性行为。从而给各个二值分类器的训练和组合提供了理论指导。此外,我们还将这种模型应用于基分类器的容错性分析。最后,我们进一步将分类器的二类组合推广到多类,提出了K-M分解组合算法,并研究了这种分解组合的分类特性。
其他文献
信息技术的迅速发展和应用是人类社会进入20世纪来最伟大的事件之一。基于网络架构的信息系统极大地提高了社会生产率,在社会生产中充当重要的角色;很多情况下,它们能否顺利
本文阐述了一个基于中间件技术的专家系统开发平台ESDPM的设计与实现.本文首先介绍了中间件技术在当前软件设计中的重要地位以及构件技术在专家系统中的应用前景.介绍了当前
随着计算机网络的迅速普及和发展,计算机网络的规模越来越大,对它的管理也越来越复杂,所以需要一个完善的功能强大的网络管理协议。SNMP协议以其简单、实用而被广泛接受,并成
  本文介绍了基于集群平台,利用通用软件实现相关器的创新方案。它克服了硬件实现的种种弊端,为综合孔径成像技术提供一种范例。本人成功的搭建了一套基于双网络(千兆以太网
作为数据仓库的一项关键技术,物化视图是加快OLAP查询响应速度,提高决策支持性能的重要手段.由于受到空间开销和视图维护代价等因素的约束,物化数据仓库中所有可能的视图是不可能
  物料清单(BOM)是企业产品制造过程中不同部门、不同流程间传递数据的基本形式,是企业集成管理的信息纽带。因此,BOM的结构设计及其数据正确性的维护都是企业信息管理中十分
本文对网络管理的协议及其相关技术,以及网络拓扑发现的实现原理进行了研究。首先介绍了一个将SNMP协议与ARP协议以及ICMP协议相结合的针对网络层的网络拓扑自动发现算法设计
  本文首先分析我国大多数中小软件企业的特点,并阐述本文研究的主要内容及其意义。其次,总结和阐述软件工程、软件过程、CMM和CMMI的相关基本概念,同时分析和总结我国中小型
粗糙集理论(Rough set理论)是由20世纪80年代波兰人Z. Pawlak提出的一种新的数学数据分析工具,它通过严格的数学公式来处理不精确性、不确定的问题,具有演绎、归纳和常识推理
随着计算机技术和网络技术的飞速发展, 由此产生的各种数据呈几何级数爆炸式增长, 各种在线数据增长迅速, 促使数据存储容量以每年3 到5 倍的速度急剧增加。大量数据密集型的