论文部分内容阅读
舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和。而网络舆情,就是指在网络空间内,围绕舆情因变事项的发生、发展和变化,网民对执政者及其政治取向所持有的态度。随着互联网的发展,互联网已逐步成为思想文化信息的集散地、社会舆论的放大器和反映社情民意的主要渠道。因此挖掘网络上舆情民意的倾向,对于舆情分析、政府决策支持有着十分重要的意义。
近年来,已经有众多学者对网页文本倾向性进行研究,提出了诸如基于情感词加权、基于语义模式分析、基于普通文本分类等的分析方法,但均处于起步阶段,并且具有一定的领域相关性。网络舆情分析,与现有的文本倾向性技术的应用领域相比,在情感表达和文本形式方面有其独特的特点,应用现有的文本倾向性技术进行网络舆情分析时,需要重新构建面向舆情分析的倾向性方法。
因此,本文在网络舆情的分布领域、网络舆情的表现形式和语言表达特点以及现有文本倾向性分析方法的基础上,选择了基于自然语言处理的极性传递倾向性分析算法来进行倾向性分析。并收集了关于房地产的网络舆情文本作为输入语料,根据语料特点构建了情感词典,将基于自然语言处理的极性传递倾向性分析算法与基于统计的情感词分布倾向性分析算法进行对比实验,分析影响倾向性分析效果的因素。最后针对极性传递倾向性分析算法的不足,提出基于本体的网络舆情观点倾向性分析方案。