基于投票熵提升Naive Bayesian的Boosting改进算法

来源 :第三届中国数据挖掘学术会议(CCDM2009) | 被引量 : 0次 | 上传用户:ajdpwsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  AdaBoost作为一种有效的组合学习方法,但对稳定的Naive Bayesian (NB)分类算法的提升效果却不明显,本文从增加NB分类器的不稳定性和改进训练样本权重调整策略两个方面出发,提出一种有效的NB分类器提升算法-BoostVE-WNB.该算法首先利用不同的特征评估函数建立不同的特征视图,训练生成一系列不同的加权朴素贝叶斯(WNB)基分类器,进而增加了基分类器的不稳定性.迭代过程中,新的权重调整策略不仅考虑训练样本是否被分错,还充分利用前几轮迭代的多个基分类器对每个训练样本的投票分布,计算每个训练样本的投票熵度量其"价值",使得每次迭代生成的基分类器更加关注那些争议性较大的样本.这种训练样本权重调整策略,进一步增加了WNB基分类器的不稳定性和正确性.实验结果表明所提算法能够有效地提升WNB文本分类器的性能.
其他文献
微量元素是人体生长发育的重要因素,头发是微量元素的排泄器官之一。近年来国外不少学者通过测定头发中微量元素含量来了解或评定体内微量元素营养水平,并指导临床治疗某些
从试管苗到成苗要经过一个从培养基到基质的移栽过程,其生长环境将发生较大的变化。这就给花卉爱好者提出了一个问题——采取怎样的措施才能使幼苗安全过渡呢?笔者是从以下
  MOSES算法是一种新型的自主程序演化方法,结合了hBOA算法进行优化。而hBOA算法在此并不是最有效的优化方法。为改进MOSES效率,本文提出了程序树层次化结构统计模型;该模型通
目的:探讨Kazal 5型丝氨酸蛋白酶抑制剂(serine protease inhibitor of Kazal type 5, n SPINK5)基因突变致新生儿Netherton综合征(Netherton syndrome, NS)的临床特征及分
吊白块,为白色块状物,化学名称为甲醛合次硫酸氢钠[H_2C(OH)SO_2Na_2H_2O],常用于染布、造纸、橡胶等工业,含有原生质毒物甲醛。为了保障广大消费者饮食安全,掌握我市食品中
  选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生,但它们大都是针对完整数据的.然而,现实中的数据通常
  针对现有的学习方法主要用于一阶转换网,并要求存在具有大量完全时间对称例子的两个相邻时间片数据集,而在现实中很难满足这一条件,且对于多变量复杂转换网,效率和可靠性也很
  限制性贝叶斯网络研究是将贝叶斯分类问题应用于实际的重要环节。以往都是通过对所有网络结点统一控制的,这种限制方法忽略了不同结点的差异性。本文设计了对不同结点有不
  信息过滤是文本挖掘领域的重要课题之一。针对互动型网络媒体信息(如BBS),提出一种新的信息过滤方案,该算法主要从特征提取和分类器构造两方面对Bayesian方法进行改进,建立
会议
  空间数据集的对象之间存在空间关系,按一定的空间关系将空间数据分组,构成空间对象群.每个空间对象群包含类型多样的数量不等的空间对象.目前空间对象群聚类算法尚未见报道
会议