论文部分内容阅读
提升(Boosting)方法是一种新兴的数据挖掘方法,近些年在模式识别领域受到广泛关注。它的基本思想是集成多个简单且性能一般的弱学习算法,最终形成具有高准确度的估计。在分类问题下,Boosting方法通过对多个基分类器的有效整合,生成预测性能更好的集成分类器。AdaBoost算法是提升算法中的代表性算法,在近年来取得很大成功,它能有效降低集成分类器的预测误差。尽管如此,很多实验发现AdaBoost算法对噪音数据非常敏感。当训练集中出现不容忽视的类别噪音或异常数据时,AdaBoost算法对弱学习算法的提升作用将受到很大制约。在模式识别中,噪音过滤和嫌疑样本修正两种数据预处理方法常用于提高含噪音训练集的数据质量。这两种方式大都建立在专家意见或数据的粗糙认识基础上,难免出现决策风险。噪音过滤手段可能会牺牲正常样本,减小可用样本容量,造成信息损失,而修正嫌疑样本则可能使训练集增加新的数据噪音。目前国内外文献对AdaBoost算法在抗噪性方面的改进主要从损失函数,权重更新机制和基分类器的组合方式等方向做针对性改进。有的改进思路主要改良算法原理,提高算法的鲁棒性,而另一些则融入数据预处理手法,提出很多基于样本数据的改进AdaBoost算法。当前在提高AdaBoost算法的抗噪性方面,很少运用置信度思想表达训练样本的嫌疑大小,但置信度方法可避免对嫌疑样本的硬性删除或修正,还能充分体现决策者对样本可靠性预判的把握程度,因此携带很多有价值的信息。在一些模式识别方法中出现的置信度思想主要用于样本的加权或表达预测的把握度。论文基于样本类别的置信度信息,改进提升算法的目标函数,提出一套二分类问题下基于置信度的改进Boosting算法,为提高Boosting算法的抗噪性提供新的思路。论文还分析了改进Boosting算法的鲁棒性,并与当前文献中出现的多种提升算法进行比较,分析它们相互间的联系以及本文改进算法的突出特点。最后利用实验验证改进Boosting算法的有效性。结果表明,改进算法在人工模拟数据和UCI实际数据集上均具有良好的鲁棒性,显示出在提高Boosting算法抗噪性方面的很大潜力。