论文部分内容阅读
在移动互联网的发展和推动下,高校网络舆情主要形成于学生网站、微博、微信、知乎等载体,这些媒介拥有庞大的用户人群,用户参与度高、信息传播迅速,高校学生喜欢使用这些即时通讯软件分享信息,发表个人观点,表达个人情绪。对某一时间在较为集中的范围内容易产生带有群体性质的意见、情绪和行为,形成舆论场,因此,如何利用自然语言处理技术在海量规模的文本信息中挖掘有意义的信息是政府部门、企业机构亟待解决的问题。本文以新浪微博(http://weibo.com/)和知乎(http://zhihu.com/)数据为数据来源,依靠自然语言处理中的主题挖掘、情感分析、基于机器翻译模型的词对齐等技术设计并实现了面向社会媒体的高校学生网络舆情分析系统,自动监测校园网络舆情,维护校园安全、进一步推动和谐校园建设。本文的主要研究内容以面向社会媒体的用户兴趣挖掘和高校网络舆情分析为任务,本文主要有如下工作:本文运用Labeled-LDA主题模型对大规模微博文本建模,用训练好的模型对高校学生微博用户的文档进行预测,从而得到每个用户的兴趣模型。针对文本分类任务,本文提出了高效的Gradient Boosting Decision Tree基于回归模型的主题分类算法,将文本的多元分类任务看作多分类的Logistic问题。实验证明本文提出的GBDT算法在速度和精度上较SVM有很大提高。针对舆情分析任务,本文使用基于机器翻译中的词对齐技术训练翻译模型,运用分割算法构建“文档-标题”翻译对,运用IBM-Model1词对齐技术训练翻译模型,通过构建翻译对建立文档和关键词之间的语义关系,完成从大规模知乎舆情文档中舆情关键词抽取任务。通过实验和现有的领域成果和算法进行比较,证明基于机器翻译模型方法的有效性。最后,基于上述提出的Labeled-LDA主题模型、基于翻译模型的舆情关键词提取等算法,在具体的应用环境中设计并实现了一个实用的面向社会媒体的高校学生网络舆情分析系统。