基于改进随机森林的不平衡新闻文本挖掘研究

来源 :广州大学 | 被引量 : 0次 | 上传用户:QINQINXIAOTIANXIN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,人们越来越习惯于通过手机、计算机等线上平台查看各类信息,这催化了各类新闻网站的诞生。但由于新闻文本数据内容本身是非结构化的,普通计算机技术无法直接对其进行有效识别和处理,而文本分类技术则是一种用于将普通文本内容转换成计算机所能学习的数据形式的重要技术。随机森林是一种由多棵决策树集成的学习算法,其具备的分类精度高、泛化误差小、擅长处理大规模数据等优点,使得随机森林被广泛应用于各个学科领域中,一直被各界学者所关注。新闻文本由于其长文本的数据特点,经过文本特征过程处理后所得的数据一般都是高维的,随机森林模型适用于处理这类文本数据。但新闻文本是一种多分类数据,会出现某些小众新闻类别的数据样本非常少的问题,而传统的随机森林在处理不平衡数据时会存在一些不足之处:一是在面对不平衡数据时,随机森林的分类结果往往会偏向于多数类,这会导致少数类样本的分类准确率明显低于多数类;二是由于随机森林是由多棵决策树组合而成,传统随机森林中每棵决策树的质量都不一样,但在投票决策阶段每棵决策树拥有相同的投票权重。针对以上的不足,本文在利用文本数据基于Word2vec空间向量文本相似度的基础上,从构造平衡样本数据、决策树加权投票以及模型集成优化三个方面对随机森林进行改进。(1)为构造平衡样本空间,本文结合SMOTE过采样的思想,基于Word2vec空间向量文本相似度分区域筛选少数类合格样本与其近邻样本,通过插值的方式合成新样本;(2)基于所构造的平衡数据,在训练生成随机森林的过程中,根据文本相似度改造每棵决策树的袋外数据,使用决策树对新袋外数据进行分类,并依据分类准确率赋予决策树投票权重。(3)为了能进一步提高改进随机森林模型的稳定性以及分类性能,利用集成模型思想,在本文提出的改进随机森林模型的基础上,结合Bagging集成学习方法,通过并行训练多个基学习模型,并使用等权重投票融合分类结果,最终得到一个强分类模型。实验证明,本文提出的基于文本相似度的改进随机森林算法能有效提高随机森林对不平衡新闻文本数据的分类性能,而经过集成后的改进随机森林较原来具有更好的泛化能力。
其他文献
人财物以及信息的高速流动在有效促进经济社会快速发展的同时,也给社会治安带来了更大的压力,而社会转型期的利益多元、矛盾多样也叠加了治安问题。但是政府投入到治安防控的资源不可能完全满足每一个人多样化的安全需求,因而形成了公众安全需求规模增长、形式多样与政府治安服务资源有限之间的矛盾。解决这一矛盾的路径之一便是通过警务社会化整合社会防控资源进行治安防控。所谓警务社会化即警务工作要处于一个合作的、伙伴的、
本翻译实践所选文本是本人导师推荐的著名意大利作家弗兰西斯科·达达莫所著的《伊克巴尔》书。该书基于真人真事,讲述了伊克巴尔·马西,一个巴基斯坦童工,如何与剥削者抗争,并加入了巴基斯坦劳动解放前线组织,为全世界遭受奴役的儿童争取权利的故事。《伊克巴尔》属于纪实文学,但又兼具儿童文学的特点。它聚焦于伊克巴尔短暂而勇敢的人生,以叙事为主,文本充满了生活场景的描写与对话,非常写实。故事的叙事者是伊克巴尔的童
作为少数民族非物质文化遗产的广西壮锦是我国四大名锦之一,与铜鼓、风雨桥并称为广西壮族自治区的三大文化符号。具有民族性和地域性纹样的壮锦不仅是壮族人民劳动生活的体现,也是壮族人民精神文化的表达,更是壮族历史发展的见证者,具有极为重要的历史地位、文化地位、审美地位和教育地位。然而,由于社会发展中新技术的产生,原本作为壮族人们生活用品的壮锦面临着因使用功能的转变而伴随而来的传承传播的问题。随着数字化技术
马克·本德尔(Mark Bender)是美国当代著名学者,主要研究方向是中国少数民族文学。本德尔又是一名翻译家,在近四十年的时间里,先后翻译了十余部中国少数民族口传文学作品,包括苗族的《苗族史诗》和彝族的《勒俄特伊》,被誉为“中国少数民族文学英译的开路先锋”。本德尔还发表文章专门讨论中国少数民族口传文学的翻译问题,并多次在接受国内学者的专访以及学术演讲过程中,表达了其对翻译的认识和看法。对这些观点
对于一个操作系统来说,系统的机密性直接决定了一个系统内文件的安全性。在SELinux系统中,通过实施强制访问控制规则,来保证系统的安全性。但是由于其安全策略的配置十分复杂,系统安全管理员无法直接从安全策略文件中获取系统内相关的信息元素,并且难以对系统内的安全策略进行有效的管理。若全部通过人工直接进行排查工作量过大。为解决这一问题,必须直观地将系统内安全策略的相关信息展示给系统安全管理员,并提示系统
利用诱导牡蛎型混凝土吸引牡蛎幼苗附着于海洋混凝土工程上,形成牡蛎礁,从而发挥其“海洋生态工程师”净化水体等生态功能,使得海洋混凝土工程建设与海洋生态保护于一体化,促进可持续发。目前采用牡蛎壳、碳酸钙等诱导剂可以大幅度提高混凝土表面牡蛎幼虫的附着量。而将牡蛎壳碎替代河砂不仅可以改善混凝土对牡蛎幼苗的诱导效果,同时实现了农业废弃物—牡蛎壳的二次利用。本文为了进一步探究牡蛎壳碎替代河砂及复合掺加牡蛎诱导
股东查阅权衍生于现代公司的架构模式之下,目的是为了防止公司管理层出现“道德风险”和“逆向选择”等法律明文禁止的行为,弥补部分股东因退出公司日常经营管理而可能产生的信息弱势。股东查阅权历来为各国公司立法所普遍重视。近些年,我国《公司法》不断修正完善,在司法解释的补充下,股东查阅权的体系逐渐建立起来,但是在适用过程中仍暴露出了很多问题。会计凭证能否纳入查阅权范围至今尚无定论,审查“正当目的”的标准也仍
空间理论进入新闻传播学的研究领域后,为研究者们观察媒介对于社会建构的关系提供了独特的视角。媒体不仅是见证空间变迁的信息载体,同时是拟态空间和集体想象生产的主体。粤港澳大湾区是我国新时代全面开放新格局的重要组成部分,内含丰富的政治、经济以及文化意义。作为社会生态复杂的空间载体,大湾区充斥着大量的社会关系以及空间竞合关系,成为大众传媒关切与建构的空间对象。主流媒体在空间生产方面具有重要的作用。本文选取
“现代散文阅读”一直以来都是高中语文学习的重难点,高中阶段的散文学习目标侧重于增加学生的阅读量,激发学生的阅读兴趣,提高学生的阅读水平。旨在通过阅读培养学生的审美鉴赏能力,语言表达能力与思维能力。笔者通过问卷调查了解到传统的现代散文阅读教学模式存在一定的局限性,阅读教学形式古板老套,课堂枯燥乏味,无法调动学生的学习积极性与阅读兴趣。而群文阅读教学作为新兴的阅读教学形式,通过“一篇带多篇”的教学方式
全国单项体育协会是实现全民健身国家战略的重要力量,是我国体育产业多元化治理结构中的重要组成部分。党的第十九次全国代表大会提出要“构建共治共享的社会治理格局,提高社会治理法治化水平”。这为单项体育协会改革指明了方向。当前自治规范研究领域,“软法治理”在学界已越来越受到重视,在实践领域也得到了认可。如何运用“软法治理”来完善全国单项体育协会内部治理、实现治理现代化,已成为体育治理研究的重要内容。本文选