论文部分内容阅读
随着Internet技术的迅猛发展,互联网已经确立了它第四大媒体的主导地位,成为社会公众发布信息、获取信息和传递信息的主要载体。网络舆情作为社会舆情在网络中的延伸,不仅反映了现实社会中的各类问题,而且会对现实社会产生重大影响。因此,对网络舆情分析技术的研究已成为一项紧迫而又重要的课题。在网络舆情分析中,网络舆情信息获取的快与准、内容分析的确定性、舆情研判的准确性、舆情响应及时性、信息跟踪的及时性等目标的实现是网络舆情分析研究的重中之重,其核心技术即舆情分析引擎。
针对网络舆情分析的实际应用,本文在综合考虑网络舆情的特征和人们的认知规律基础上,进行了舆情热点挖掘、文本倾向性分析两个关键技术的研究,主要工作如下:
1、描述了网络舆情分析中的重点内容,研究了网络舆情分析中网络信息的采集与提取、话题发现与跟踪、网络文本的倾向性分析和多文档自动文摘这四项主要技术的当前发展状况和基本实现过程。
2、探讨了网络舆情热点的表示及特性,研究了舆情的主题关注度计算公式和关联主题的判定方法。详细阐述了基于网络间关系方法的舆情热点挖掘算法,即舆情传播网络中节点与链接的关系可以构成复杂型网络,具有典型的小世界与无标度特征,使用PageRank方法与Hits方法,可以进行页面重要性排序,从而获取网络舆情热点。以维基百科数据为仿真实例,利用维基条目间的结构化语义关系和属性信息,模拟构建舆情网络,验证了上述两种方法在网络舆情热点挖掘中的有效性。
3、在总结文本语义倾向性的基本概念的基础上,讨论了文本倾向性分析的现有技术,并以文本倾向性分析多项技术中的基于语气标注的方法为出发点,提出了改进算法,提高了褒义类、中立类、负面贬义类文本的查全率和查准率。
4、结合基于网络间关系方法的舆情热点挖掘算法和改进的文本倾向性分析算法,设计并实现了一个网络舆情分析系统。