论文部分内容阅读
AdaBoost是一种重要的集成学习元算法,算法最核心的特性"Boosting"也是解决代价敏感学习问题的有效方法.然而,各种代价敏感Boosting算法,如AdaCost、AdaC系列算法、CSB系列算法等采用启发式策略,向AdaBoost算法的加权投票因子计算公式或权值调整策略中加入代价参数,迫使算法聚焦于高代价样本.然而,这些启发式策略没有经过理论分析的验证,对原算法的调整破坏了AdaBoost算法最重要的Boosting特性。AdaBoost算法收敛于贝叶斯决策,与之相比,这些代价敏感Boosting并不能收敛到代价敏感的贝叶斯决策.针对这一问题,研究严格遵循Boosting理论框架的代价敏感Boosting算法.首先,对分类间隔的指数损失函数以及Logit损失函数进行代价敏感改造,可以证明新的损失函数具有代价意义下的Fisher一致性,在理想情况下,优化这些损失函数最终收敛到代价敏感贝叶斯决策;其次,在Boosting框架下使用函数空间梯度下降方法优化新的损失函数得到算法AsyB以及AsyBL.二维高斯人工数据上的实验结果表明,与现有代价敏感Boosting算法相比,AsyB和AsyBL算法能够有效逼近代价敏感贝叶斯决策;UCI数据集上的测试结果也进一步验证了AsyB以及AsyBL算法能够生成有更低错分类代价的代价敏感分类器,并且错分类代价随迭代呈指数下降.