随机森林在文本分类上的应用研究

来源 :武汉大学 | 被引量 : 2次 | 上传用户:XPTRY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,计算机技术正在飞速的发展,我们在网络上制造了大量的信息数据,正在进入大数据的时代,信息呈现爆炸式增长。对于海量复杂的信息数据,需要有效地组织梳理进而挖掘其关联,文本分类就是解决这些问题的一个关键部分。随机森林是一种非常典型的组合分类器,通过引入随机性来构造出决策树的一种集合,具有较高分类准确率、克服了过拟合的问题,对异常值和噪声有良好的容忍性等特点,随机森林得到了十分广泛的应用,而且在文本分类领域取得了不错的效果。由于随机森林算法也存在很多的不足,某些方面还有待更加的完善。本文首先通过对文本分类的流程进行系统化的梳理,介绍了文本分类的预处理、特征抽取和特征选择等。其中,文本预处理主要是对分词、去停用词、词干提取进行了简单介绍,特征抽取和特征选择部分着重介绍了特征选择的一些方法。并且本文对文本分类领域常用的几种分类器模型:朴素贝叶斯、支持向量机、K近邻等算法进行了简要的介绍,介绍了分类器的性能评价指标。随后本文简述了随机森林的相关理论部分,并将文本分类和随机森林算法理论运用到实例中,以CNBC网站的金融新闻资讯作为数据源进行文本分类工作。
其他文献
在西方现代文学中,城市已经成为了小说的主角。作家、城市和文本构成了同时存在的城市景象与文学地图。2006年的诺贝尔文学奖得主奥尔罕·帕慕克正是这样一位书写城市的作家,
我国是世界上禽种资源最丰富的国家之一.据有关资料报道,全球畜禽品种为3019种,其中中国占597种,占全球数量的19.89%.以鸡为例,列入中国家禽品种志的有27个,加上列入各省(市)
在交通运输和工程机械等领域柴油机因其较高的热效率、较强的动力性以及可靠性等优点被广泛认可与应用。但是,柴油机排放的NOx、PM、CO、HC等污染物亦会带来严重的空气污染。降低柴油机排气的污染物的机外后处理技术主要有:柴油机氧化催化器(DOC)、柴油机微粒捕集器(DPF)、选择性催化还原装置(SCR)、氨氧化催化器(AOC)等。但单纯的依靠某一后处理技术,难以达到日益严格的排放法规要求。因此,采用集
近年来随着互联网的发展,健美这项力与美相结合的运动迅速发展,更多人开始意识到需要对自己身体进行塑造,大多数健身爱好者在刚步入健身房时所接触到的健身训练方法是传统的五分化健美训练方法,而这种方法被认为是需要一定训练基础,对肌肉进行细节上的改进的方法,对于刚开始进行健美运动的新手效率较低。而力量举训练方法对于肌肉量的增长效率更高。本研究主要目的是为了对比力量举训练方法与健美训练效果的影响,为健美运动相
随着社会经济的不断发展,产业结构出现了重大调整的社会性变革,旅游业被推到前所未有的高度,越来越多的人开始关注旅游业,因此旅游业成为了大多数地区意欲培植的新的经济增长
目的 探讨慢性淋巴细胞白血病(CLL)基因组的异常情况及其临床意义.方法 对17例初诊CLL患者进行常规细胞遗传学(CC)检测,同时应用着丝粒探针CSP12(12p11.1-12q11.1)和序列特异性探针