基于Boosting机制的Naive Bayesian文本分类器

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:cjbin1688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive Bayesian分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明,这几种方法各有其优缺点
其他文献
文章在对代数格及其一些运算的基础上,引入树的格及其同态、等价等概念,将复杂类型的范例,如时间序列的匹配比较问题映射到代数格中解决。该模型在遇到复杂知识类型,相似性的度量
目的探讨护理敏感质量指标在预防脑卒中患者深静脉血栓(DVT)中的建立与应用效果。方法通过函询上级医院护理专家构建脑卒中患者DVT预防护理敏感质量指标。将实施预防DVT护理
电力生产管理的内容涉及多方面,是一项复杂的工程管理,对于管理人员来说难度较大。企业需要根据电力生产的实际情况,创新管理方法,落实管理责任,优化管理技术,从而提高电力生
预计算一个完整的数据立方可以获得最快的查询响应速度,但是对于一个大规模的数据立方,所需的存储空间非常大,因此通常只能预先计算数据立方中的部分聚集。文章提出了计算部分数
美国科学家日前通过对芽殖酵母和线虫的基因分析,鉴别出2种生物共有的25个负责调控寿命长短的基因。
本文基于笔者参与的湖北民族学院专业建设方案设计的研究,探讨了自然地理与资源环境专业本科人才的培养方案,论文从培养目标、基本规格要求、课程体系、主要课程、实践教学体系和质量保障措施等方面进行了系统的阐述,相信对相关专业培养方案的制定有着重要的指导价值。
凸函数是一类重要的函数,很多优化控制理论都源于凸函数的定义,为此本文旨在归纳总结凸函数的几个定义并给出其中两个定理的证明。
在网络实时应用如远程教育、视频会议等系统中,对多播多媒体流的每一个流,不仅有严格的端到端时延限制,还有网络带宽的约束。网络在满足应用服务请求的同时,还应尽可能地降低资源
本文将环境污染作为一种生产要素纳入到经济增长方程,结合环境污染的拟合方程,构建联立方程组模型,并以二氧化硫为代表,利用我国2005~2013年省级面板数据进行实证检验,分析环
文章综合考虑了具有跳数约束的R边连通网络优化设计问题。分析了用进化规划求解该问题的优点,提出了一种基于进化规划求解该问题的新方法。该方法首先采用启发式算法随机形成