网络舆情评论文本信息的R挖掘研究

来源 :云南师范大学 | 被引量 : 0次 | 上传用户:aws134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展与应用为人们获取和交流信息提供了便捷的载体,使得互联网成为各种海量信息的数据资源。新闻客户端在为网民提供快捷新闻资讯的同时,也为网民方便地发表自己的评论观点、交流信息提供了一个工具平台,但这个工具平台若管控不好就容易成为谣言的滋生地,诱导社会矛盾,扰乱社会秩序,甚至引起违法犯罪。网民的评论观点是网络舆情的文本信息源,具有复杂数据和大数据特征,对其进行统计挖掘研究有着重要的理论和应用意义。本文中将借助于R语言强大的绘图、数据分析功能及其丰富的扩展程序包,以“徐玉玉”电信诈骗事件微博用户评论为例,对中文文本数据信息进行挖掘研究。通过一系列无监督学习技术、有监督学习技术对微博用户评论建立了回归模型与分类模型。首先,对所采集的微博用户评论进行完整的分词,构建中文文本语料库,清洗所获得的语料库数据,包括去除中文停用词、标点符号及设置阈值降低语料库的稀疏度。对清洗过的数据构建文档—词条关系矩阵,作为后续分析的基础。其次,对所获得的包含时间与获点赞数的文本数据进行分离,绘制时间序列图进行初步的分析。利用文档—词条关系矩阵对网民的获点赞数进行回归分析,其中包括构建多元线性回归模型、决策树模型及随机森林模型;通过自建函数对这三种模型进行比较得出最优模型,由此对网民评论获点赞数进行预测,尝试利用统计手段提高网民评论观点倾向分析的预测准确性。最后,利用文档—词条关系矩阵,通过无监督分类学习逐步对文本数据进行分类,根据聚类分析及混合主题模型结果确定文本数据分类主题。将支持向量机、随机森林及最大熵学习方法应用于已分类文档的文档—词条关系矩阵构建模型;利用所建模型对未分类文档进行分类预测,作出了微博用户评论观点倾向分析。
其他文献
两《唐书》《窦群传》所记窦群官职,有重大疏误。窦群当为右拾遗,两《唐书》皆误记为左拾遗。窦群不附王叔文。据吕温《代窦中丞与襄阳于相公书》、褚藏言《窦群传》等,窦群
目的检测中国汉族人毛囊角化病ATP2A2基因突变。方法采用聚合酶链反应扩增患者和健康对照个体ATP2A2基因的全部外显子,并进行DNA测序,以100例无亲缘关系的正常人作对照。结果
目的:探讨康复护理在县级医院普及的必要性。方法:对慢性病、老年病以及脑卒中后遗症等疾病的康复护理和康复指导。结果:减少了慢性病、老年病的入院时间,减少了并发症、后遗
蜂产品加工业在推进农业产业化和促进农村经济持续健康发展水平方面,有着非常重要的作用。现阶段蜂产品加工企业存在企业规模小、对源头产品控制能力差、产品雷同、销售渠道
目前,世界已进入经济一体化的高速发展时期,我国社会主义市场经济不断完善,经济体制改革深入进行.由于会计环境的急剧变化,现行财务报表所提供的会计信息的效用受到了极大的
李××,社会性别女性,26岁,因无月经和婚后不孕就诊。体重:表型女性,瘦长型,身高164cm,体重44.5kg,皮肤细嫩,喉结不大,无胡须,无腋毛,双侧乳房未发育。腹部(一),双腹股沟未
茄果类蔬菜包括茄子、西红柿、辣椒等,是我国最主要的蔬菜之一。由于其产量高,生长供应时间长,经济效益高,在露地及设施蔬菜栽培中,都占有很大的比重。但在开花结实过程中,
本实验制备组成分别为DOPE/Chol/OA(4:4:3)的酸敏脂质体及DOPC/Chol/OA(4:4:3)脂质体,用于包裹质粒pSV_2-neo、pUC18-ras、pSV-neo-ras及大分子线状DNA,包裹率可达50%.被脂质
伴随着新课程改革的推进,教学改革何以让人仍有举步维艰、积重难返之感?或许,教学形式与技巧的表面改变并未触及教学改革的灵魂。归根结底,教学改革呼唤的是教师教学价值观的