论文部分内容阅读
对于许多实际应用,稀有类分类问题都非常重要。而稀有类样本的数量稀少使得很难使用传统的分类器对它们准确分类。由于稀有类问题的特殊性、复杂性及难解性,目前研究稀有类问题的专用算法不多。 本文主要研究基于eEP的稀有类分类问题。eEP是一种最具表达能力的、特殊的EP,称为基本显露模式。它不仅具有显露模式的优点,可以用来构造准确的分类器,而且数量比显露模式少很多,可以快速方便地挖掘和使用。 集成学习方法是从机器学习领域逐渐发展起来的用于提升弱分类器分类准确率的技术,被认为是近十年来提出的最有效的学习思想之一。与单个算法相比,集成学习不容易出现过适应现象。 本文把Bagging技术引入稀有类分类这一极具挑战性的领域,并采用基于eEP的分类器作为集成学习的基分类器进行分类。通过“分组自助抽样”及不同的加权投票策略的分析,本文详细研究了Bagging技术在稀有类分类上的应用。同时提出了若干稀有类分类的高效集成学习算法。 本文研究工作的主要创新点有: 使用eEP来分类稀有类。改进了基于eEP的单分类器算法CEEP,使之更适合对稀有类进行分类。从而形成了新算法eEPRC,它更加侧重稀有目标类的分类性能。 应用集成学习方法Bagging技术来提高稀有类分类性能。提出两个新的稀有类分类算法VeEPRC和BeEPRC,他们分别采用bootstrap自助抽样和“分组自助抽样”产生多个自助样本集。 针对BeEPRC集成学习算法,进一步采用两种不同的加权投票策略进行分析,即按分类准确率加权的BeEPRCA算法和按稀有类分类的F-度量进行加权的BeEPRCF算法。最终选用分类性能较好的BeEPRCF作为本文的代表算法与其它经典分类算法进行详细分析比较。 通过对稀有类分类问题的研究与实践,本文从中探索了一些可行的规律,在一定程度上提高了稀有类分类性能并同时保持总体分类准确率在较高范围内。这为稀有类问题研究提出了一种新的视角,同时为进一步的研究工作提供了丰富的实验数据。