论文部分内容阅读
互联网时代已经来临,信息数量呈井喷式增长,网络新闻成为了主要的网络信息载体。民众通过网络新闻了解国计民生、时事动态,越来越多的人对喜欢的新闻文章进行分享传播,新闻文章的分享次数显示了该新闻的流行度。本文主要应用部分分类算法对网络新闻的流行度进行预测,来探讨对网络新闻流行度进行预测的最佳模型,以期帮助网络新闻服务商在出版前预测新闻流行度。本文按照数据分析的流程对网络新闻的流行度进行预测研究:一、对数据集进行预处理;二、对数据集进行特征选择,我们主要采用的是递归特征消除算法,这是一种基于模型的特征选择方法;三、进行建模分析,我们用多种不同的学习算法拟合数据集,如自适应增强算法、随机森林算法、支持向量机算法,对建立的三种不同模型结果分别进行具体详细的分析;四、模型评估,通过混淆矩阵、风险图和ROC图等性能评估方式对模型的性能进行比较分析。最后我们发现随机森林是预测的最佳模型。在整个文章结构中,本文第一部分主要介绍了论文的背景意义及目前对网络新闻研究的现状。第二部分对论文中使用的模型及方法从理论上进行了综述。第三部分根据UCI的数据集,该数据集来自Mashable,一个众所周知的网络新闻网站,按照数据分析的流程对其进行具体的数据分析,第四部分得出有参考性的结论,然后对本文的不足之处简要的分析,并且根据本文的不足之处对未来的研究工作进行展望。