论文部分内容阅读
AdaBoost作为一种有效的组合学习方法,但对稳定的Naive Bayesian (NB)分类算法的提升效果却不明显,本文从增加NB分类器的不稳定性和改进训练样本权重调整策略两个方面出发,提出一种有效的NB分类器提升算法-BoostVE-WNB.该算法首先利用不同的特征评估函数建立不同的特征视图,训练生成一系列不同的加权朴素贝叶斯(WNB)基分类器,进而增加了基分类器的不稳定性.迭代过程中,新的权重调整策略不仅考虑训练样本是否被分错,还充分利用前几轮迭代的多个基分类器对每个训练样本的投票分布,计算每个训练样本的投票熵度量其"价值",使得每次迭代生成的基分类器更加关注那些争议性较大的样本.这种训练样本权重调整策略,进一步增加了WNB基分类器的不稳定性和正确性.实验结果表明所提算法能够有效地提升WNB文本分类器的性能.