面向社会媒体的高校网络舆情分析系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dahar005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在移动互联网的发展和推动下,高校网络舆情主要形成于学生网站、微博、微信、知乎等载体,这些媒介拥有庞大的用户人群,用户参与度高、信息传播迅速,高校学生喜欢使用这些即时通讯软件分享信息,发表个人观点,表达个人情绪。对某一时间在较为集中的范围内容易产生带有群体性质的意见、情绪和行为,形成舆论场,因此,如何利用自然语言处理技术在海量规模的文本信息中挖掘有意义的信息是政府部门、企业机构亟待解决的问题。本文以新浪微博(http://weibo.com/)和知乎(http://zhihu.com/)数据为数据来源,依靠自然语言处理中的主题挖掘、情感分析、基于机器翻译模型的词对齐等技术设计并实现了面向社会媒体的高校学生网络舆情分析系统,自动监测校园网络舆情,维护校园安全、进一步推动和谐校园建设。本文的主要研究内容以面向社会媒体的用户兴趣挖掘和高校网络舆情分析为任务,本文主要有如下工作:本文运用Labeled-LDA主题模型对大规模微博文本建模,用训练好的模型对高校学生微博用户的文档进行预测,从而得到每个用户的兴趣模型。针对文本分类任务,本文提出了高效的Gradient Boosting Decision Tree基于回归模型的主题分类算法,将文本的多元分类任务看作多分类的Logistic问题。实验证明本文提出的GBDT算法在速度和精度上较SVM有很大提高。针对舆情分析任务,本文使用基于机器翻译中的词对齐技术训练翻译模型,运用分割算法构建“文档-标题”翻译对,运用IBM-Model1词对齐技术训练翻译模型,通过构建翻译对建立文档和关键词之间的语义关系,完成从大规模知乎舆情文档中舆情关键词抽取任务。通过实验和现有的领域成果和算法进行比较,证明基于机器翻译模型方法的有效性。最后,基于上述提出的Labeled-LDA主题模型、基于翻译模型的舆情关键词提取等算法,在具体的应用环境中设计并实现了一个实用的面向社会媒体的高校学生网络舆情分析系统。
其他文献
演讲是演和讲的结合,它是一种艺术,一种激情,也是一种智慧。它是人类的一种社会实践活动,具有综合性、直观性、现实性和艺术性的主要特点,演讲和一般的朗读有所不同,如果说,
文章以古琴演奏技能课的授课法作为切入点,结合作者从事教学近10年的心得体会,从怎样全面分析乐曲、疑难指法的相关处理、在视奏中对音准、节奏概念的认知与把握等方面,阐述
针对当前中职英语教学困境,文章引入可视化评价概念,并付诸实践。通过两个平行教学班一学期的教学实验发现,可视化评价能够激发学生的英语学习积极性,提供学生的英语成绩,对
<正>《义务教育语文课程标准(2011年版)》(以下简称《课标》)将第一学段的写作目标界定为"写话"。低年级写话是儿童初步运用语言进行表达与交流的方式,是基础教育的"基础"。
肺栓塞(P1E)是老年人的多发病,也是70岁以上思看的常见死因。因其症状体征缺乏特异性,常常误诊或漏诊,为提高对该病的认识,现将我们诊治的11例FIE临床情况报告如下:
目前,人才流失己成为阻碍我国民营企业发展的重要问题之一,本文针对统筹城乡政策背景下的重庆市民营企业人才流失问题,进行了针对性的研究,提出事前预防、事中控制、事后补救
吞咽障碍是脑卒中患者常见合并症,发生率达30-65%。在早期的吞咽训练期间,若进食方法不当,容易造成脱水、营养不良及吸入性肺炎、窒息,对患者预后造成很大影响,同时易引起患者悲观
贵州乡土作家冉正万,其长篇小说《银鱼来》里面蕴藏着丰富的生态意识。小说的表层结构是以银鱼为主线,描述孙、范两个家族百年的历史,其深层结构却在讲述自然生态的平衡——
<正>中国电视走向一个全新的大娱乐传播时代已是不争的事实。但在这个事实面前,我们也每每追想在二十年前,中国的电视人以及学者们还在努力建设广播电视艺术学时,对中国电视