基于R语言的网络新闻的流行度预测研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:t6293003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代已经来临,信息数量呈井喷式增长,网络新闻成为了主要的网络信息载体。民众通过网络新闻了解国计民生、时事动态,越来越多的人对喜欢的新闻文章进行分享传播,新闻文章的分享次数显示了该新闻的流行度。本文主要应用部分分类算法对网络新闻的流行度进行预测,来探讨对网络新闻流行度进行预测的最佳模型,以期帮助网络新闻服务商在出版前预测新闻流行度。本文按照数据分析的流程对网络新闻的流行度进行预测研究:一、对数据集进行预处理;二、对数据集进行特征选择,我们主要采用的是递归特征消除算法,这是一种基于模型的特征选择方法;三、进行建模分析,我们用多种不同的学习算法拟合数据集,如自适应增强算法、随机森林算法、支持向量机算法,对建立的三种不同模型结果分别进行具体详细的分析;四、模型评估,通过混淆矩阵、风险图和ROC图等性能评估方式对模型的性能进行比较分析。最后我们发现随机森林是预测的最佳模型。在整个文章结构中,本文第一部分主要介绍了论文的背景意义及目前对网络新闻研究的现状。第二部分对论文中使用的模型及方法从理论上进行了综述。第三部分根据UCI的数据集,该数据集来自Mashable,一个众所周知的网络新闻网站,按照数据分析的流程对其进行具体的数据分析,第四部分得出有参考性的结论,然后对本文的不足之处简要的分析,并且根据本文的不足之处对未来的研究工作进行展望。
其他文献
作者简介:  知名会计学者,厦门大学会计系副教授  笔者在《让管理会计成为常态工作》(《财务与会计》理财版2009年第2期)指出“……长期以来,除了零敲碎打的应用以外,管理会计从未整体性地、常态性地介入到管理活动中。”当时并提出两位一体的会计信息系统设想,此文被读者评为该刊的年度优秀论文二等奖,似可见读者的期待心理。但是,随着现代财务会计造假之风日盛,在同一系统中兼容并包“真假”两种算法,不但难度
为了解大仓鼠(Cricetulus triton)血液生理指标值,试验采用全自动兽用血液分析仪对大仓鼠血液18项生理指标进行测定,得到各项参数的正常范围值。结果表明:在雌雄鼠之间淋巴细
<正>5月19日,2018台商产业转型升级峰会在江苏南通举行,500多名台商及专家学者围绕"新时代新产业新发展"主题,为下一阶段台商如何抓住新机遇、打造新优势献计献策。该峰会由
为了研究塞北兔群体遗传多样性,试验采用PCR扩增和测序法对塞北兔3个品系(A、B、C品系)线粒体DNA D-loop区(mt DNA D-loop)全序列进行分析。结果表明:在塞北兔全部个体中所有
为了优化建筑施工企业的内部财务管理组织结构,进而提高建筑施工企业在市场上的竞争力。本文从当前大部分建筑施工企业存在的财务管理问题入手,提出了对会计集中核算模式的改
对遂宁市社会主义新农村建设示范村鸡头寺村水利水保工程发挥作用的调研结果表明:水利水保工程在社会主义新农村建设中彰显了巨大的作用,它为抗旱减灾夺丰收提供了基本的保障,夯