论文部分内容阅读
互联网的发展与应用为人们获取和交流信息提供了便捷的载体,使得互联网成为各种海量信息的数据资源。新闻客户端在为网民提供快捷新闻资讯的同时,也为网民方便地发表自己的评论观点、交流信息提供了一个工具平台,但这个工具平台若管控不好就容易成为谣言的滋生地,诱导社会矛盾,扰乱社会秩序,甚至引起违法犯罪。网民的评论观点是网络舆情的文本信息源,具有复杂数据和大数据特征,对其进行统计挖掘研究有着重要的理论和应用意义。本文中将借助于R语言强大的绘图、数据分析功能及其丰富的扩展程序包,以“徐玉玉”电信诈骗事件微博用户评论为例,对中文文本数据信息进行挖掘研究。通过一系列无监督学习技术、有监督学习技术对微博用户评论建立了回归模型与分类模型。首先,对所采集的微博用户评论进行完整的分词,构建中文文本语料库,清洗所获得的语料库数据,包括去除中文停用词、标点符号及设置阈值降低语料库的稀疏度。对清洗过的数据构建文档—词条关系矩阵,作为后续分析的基础。其次,对所获得的包含时间与获点赞数的文本数据进行分离,绘制时间序列图进行初步的分析。利用文档—词条关系矩阵对网民的获点赞数进行回归分析,其中包括构建多元线性回归模型、决策树模型及随机森林模型;通过自建函数对这三种模型进行比较得出最优模型,由此对网民评论获点赞数进行预测,尝试利用统计手段提高网民评论观点倾向分析的预测准确性。最后,利用文档—词条关系矩阵,通过无监督分类学习逐步对文本数据进行分类,根据聚类分析及混合主题模型结果确定文本数据分类主题。将支持向量机、随机森林及最大熵学习方法应用于已分类文档的文档—词条关系矩阵构建模型;利用所建模型对未分类文档进行分类预测,作出了微博用户评论观点倾向分析。