基于集成学习的英文文本分类算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户：TIANYAGUKEXING

【摘要】

：

随着高度信息化时代的到来,对于作为网络上信息传输主要载体的文本信息的组织、管理不仅可以对文本信息进行分门别类的存储,也可以使用户在检索有效信息时更加高效便捷。为了

【作者】

：

张双

【出处】

：

吉林大学

【发表日期】

：

2004年期

【关键词】

：

英文文本分类集成学习随机森林自适应提升朴素贝叶斯

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着高度信息化时代的到来,对于作为网络上信息传输主要载体的文本信息的组织、管理不仅可以对文本信息进行分门别类的存储,也可以使用户在检索有效信息时更加高效便捷。为了满足上述需求,我们要对现有文本分类算法进行总结,分析其适用的场景,并在这些算法模型的基础上进行优化,使得优化的分类器模型可以达到提升现存文本分类器精度的目的。首先,通过对文本分类的流程进行系统化的梳理,介绍了文本分类的预处理、特征选择算法、相似度计算、文本表示、分类器算法等。并且对文本分类领域常用的几种分类器模型:朴素贝叶斯、支持向量机、K最近邻和神经网络等进行了详细的介绍。介绍了分类器的性能评价指标。集成学习作为目前最为火爆的机器学习方法之一,通过构建多个分类性能较好的基分类器对训练数据集进行训练,可以提高分类器的泛化性能和分类精度,常被用于分类预测、回归问题、特征选择、异常点检测中。集成学习根据基分类器间的依赖关系可分为序列集成方法和并行集成方法两种。本文对并行集成方法bagging和序列集成方法boosting的理论基础进行了系统的研究,并对bagging的扩展算法“随机森林”进行了详细的介绍,针对随机森林算法中存在的不足之处,本文创新性的对随机森林算法进行了优化,提出了根据out-of-bag错误率与随机森林中决策树分类效果的关系,为随机森林赋予权重的算法:OOB-WRF。另外,本文还对Boosting算法变形中最为流行的一种AdaBoost算法原理进行详细的介绍。并且提出了将贝叶斯分类器作为基分类器的提升算法Ada-NB,阐述了本算法在文本分类中的优势。对于贝叶斯分类器在各个特征项之间无法相互独立时所产生的分类偏差,提出了修正类别词频的贝叶斯文本分类算法RCF-NB。最后,再结合自适应提升算法提出修正类别词频的Ada-RCFNB算法。为了验证本文提出的三个优化算法(OOB-WRF、Ada-NB、Ada-RCFNB)在英文文本分类中的有效性,本文中选用英文Newsgroups语料集进行实验验证。实验结果表明,OOB-WRF算法分类精度、F1值优于传统随机森林算法。对比Na?ve Bayes、Ada-NB、Ada-RCFNB三种分类器实验结果表明:Ada-NB算法可以很好的提升贝叶斯分类器的精度,Ada-RCFNB算法分类准确性优于Ada-NB,能够进一步提升贝叶斯分类器的精度。

其他文献

物联网末端多通道接入协议选择与优化研究与实现

随着网络技术的不断发展,未来的通信系统将变得更加复杂,多种无线技术共存是必然趋势。在网络接入技术方面,不同的网络有其自身的优缺点,在网络接入技术方面也有其自身的特点

学位

异构无线网络网络选择马尔可夫模型业务类型阻塞率

四川盆地的陆地岛屿效应

本文以树麻雀(Passer montanus)为对象,通过研究四川盆地内、外种群形态特征差异与遗传结构,探讨四川盆地的陆地岛屿效应。我们测量了分布于四川盆地及周边地区的558只成年树

学位

四川盆地陆地岛屿效应树麻雀形态变异遗传结构

《進〈四庫全書〉表》及其箋注二種之研究

清修《四庫全書》,是我國文化史上的重大事件之一。而其副產品——《四庫全書總目》,自問世以來,嘉惠學林,沾溉後學,至今仍是古代文史研究者案頭必備之書。在《總目》卷首有

学位

進四庫全書表四庫全書表注李文田四庫全書表文笺釋林鶴年

面向智慧医疗云平台数据使用的隐私保护研究

智慧医疗空前火热,各医疗云平台快速崛起,数据使用阶段使得医疗云平台充分发挥出医疗数据的价值。然而,医疗数据中包含大量个人隐私信息,数据处理不当会导致个人隐私的泄露,同时因其数据的价值性,针对医疗数据的攻击方式和数量大幅度增加。数据使用的主要方式有数据发布、智慧诊断模型应用以及统计直方图发布等,本文针对以上三种使用阶段的数据安全问题以及数据安全性与可用性无法有效平衡的问题,按照“数据规范化—>

学位

智慧医疗数据发布模型发布差分隐私

图像协同显著性检测方法研究

受人类视觉注意机制启发,图像显著性检测旨在让计算机自动检测出图像中的显著性区域。面向图像大数据,如何从大规模的图像集合中检测出共有的显著性目标已经成为一个亟待解决

学位

协同显著性检测深度学习多图模型秩约束特征对比流形排序角度嵌入

民国时期绥远地区所属县保卫团问题研究（1916-1937）

清末民初以来,匪患问题在全国范围内愈演愈烈,由于清除匪患、清查户口的需要,北洋政府开始着手建立保卫团。南京政府之后也继续沿袭这样一项政策。本文利用多种民国档案和报

学位

绥远地区匪患保卫团治安

USIP的实现方法研究及其在三创平台中的应用

从计算机互联网时代,到万物互联的物联网时代,互联的对象不再仅仅局限于计算机。但是目前没有一套规范的物联网开发通信协议和物联网对象接入方法,实现的仅仅是局部的“万物

学位

物联网USIP泛在对象EITP三创平台

天津市社会救助家庭经济状况核对精细化研究

社会救助家庭经济状况核对是新型社会救助体系的一项基础工程。作为精准救助困难群众至关重要的前置环节,核对工作在当前扶贫攻坚形势下,更加突出精准,愈发注重高效,各方面都必须实现精细化治理。对于天津市而言,核对工作正式启动刚满两年,在起步阶段走向成熟的时期,不可避免地会面临诸多难度与挑战。本文基于精细化视角对天津市社会救助家庭经济状况核对工作进行研究,注重理论与实践相结合。通过文献法梳理国内外核对工作研

学位

社会救助经济状况核对精细化治理目标定位因子分析

西藏普通高等学校本科专业设置与调整的对策研究

长期以来，我国高等教育发展一直是执行“顺经济发展周期”，那么伴随着中国社会经济的持续发展，本科教育不仅要能从数量上满足社会经济的发展，而且还要能从质量上先胜一筹。2010年

学位

本科专业设置调整

维吾尔语人称代词指代消歧研究

自然语言中广泛存在的缺省和指代现象,使得文本在全局层面包含语义缺失的问题,对机器理解带来了难度和严峻挑战。本文针对维吾尔语中具备典型指称特性的人称代词进行指代消歧

学位

指代消歧待消歧项识别零指代维吾尔语

基于集成学习的英文文本分类算法研究

其他学术论文