论文部分内容阅读
集成学习通过训练多个学习器来解决同一个问题,其泛化能力和稳定性往往要优于单一的学习器,因此受到广泛的关注。分类器集成方法,集成学习的主要研究方向,被广泛应用于解决经济管理、工程管理、医学诊断等领域的分类问题,如个人信用评估、企业财务危机预警、系统故障检测、医学诊断等。一个有效的分类器集成方法,能够帮助金融机构预测客户的违约率,降低财务风险;能够帮助工程管理人员尽早发现故障,及时制定维修计划;能够帮助医护人员进行智能判断,尽快制定治疗方案。随着经济的发展、自然环境的变化和科学技术的进步,人们对分类器集成方法的泛化能力和稳定性要求越来越高。本文在全面介绍分类器集成选择方法、分类器动态集成选择、分类器动态加权集成方法研究现状的基础上,分析已有研究存在的局限性,结合D-S证据理论、模糊软集合、马尔科夫链、软概率等理论,提出相应的解决方案,有效提高分类器集成方法的分类性能。主要研究内容包括三个方面:第一,基于模糊软集合和D-S证据理论的分类器集成选择方法研究。随着大数据时代的到来,用于训练基分类器的样本量越来越大,学习算法的计算和存储开销越来越大,为分类器集成方法的构建带来沉重的计算负担。为了解决该问题,分类器集成选择方法提供了一个新视角。构建这类方法的关键是选择标准和选择或搜索方法的确定,而以往的研究往往基于分类器的多样性或分类精确度构建选择标准,很少有学者同时考虑这两个因素。而且仅仅采用一种方法来度量分类器之间的差异性,很难捕获基分类器的多样性;同时仅仅采用精确度也很难衡量一个分类器的整体分类性能。因此,本文同时考虑多种多样性和分类性能度量指标,结合模糊软集合和D-S证据理论,从多准则决策的角度构建选择标准。最后,基于16个二分类数据集,与6个对比模型的分类结果进行对比分析,验证了该方法的有效性和优越性。第二,基于马尔科夫链的分类器动态加权集成方法研究。分类器融合方法的选择与构建,也是该领域的研究重点之一,而已有的融合方法可以分为两类:固定集成器和可训练的集成器。然而,这些融合方法都是静态的,它们在对待测样本进行集成分类时采用相同的融合规则,这将极大地降低分类器集成方法的泛化能力,无法适应环境的动态变化和时代的发展。虽然有一些分类器动态集成选择方法被提出,但其采用的融合方法仍然没有考虑分类器分类性能的变化规律。为了解决该问题,本文将分类器基于序列样本的分类性能变化看作是一个随机过程,并采用马尔科夫链进行建模,提出基于马尔科夫链的分类器动态加权集成方法。基于17个数据集,通过和12个对比模型的分类结果进行比较,验证了该方法解决二分类问题的有效性和优越性,同时验证了该方法在信用评估领域能够有效地降低错误分类成本,从而降低了金融机构的风险。第三,基于软概率的分类器动态集成方法研究。已有的分类器动态集成选择方法,往往基于分类器在验证集中的分类性能对其选择,而忽略了分类器在测试集中的分类行为。而且,针对分类器的选择和融合两个步骤需要分别选择不同的方法完成,而没有一个完整的方法或理论同时完成该两个步骤。软概率独特的运算过程能够同时包含以上两个步骤,同时分类器对待测样本的分类行为能够影响到分类器的选择与融合。因此,本文提出了基本的基于软概率的分类器动态集成方法,并基于10个信用数据集,具体介绍了该方法的应用步骤,并验证了该方法能够有效地降低信用风险。同时,结合第三章和第四章的研究内容,提出最终的基于软概率的分类器动态集成方法,并基于17个数据集,通过和14个对比模型的分类结果进行比较,验证了该方法解决二分类问题的有效性和优越性。