论文部分内容阅读
舆情是指在一定的时间和范围内,社会民众对社会出现的特定事件或现象的发生、发展和变化过程所展现的社会政治态度、信念价值观和想法的集合。随着互联网以迅猛的速度和规模在全世界发展,网络信息也同时以惊人的速度在急速增长膨胀,并且已经成为人类发展有史以来资源种类最全、资源规模最大、资源数量最多的综合信息库。可以说,互联网已然成为信息传播领域中影响最大的、最具发展潜力的主流媒体之一,也逐渐成为承载社会舆情的主流媒体之一。在这种情况下,负面的、消极的网络舆情很容易在广大网民之间传播,对社会的和谐发展产生极大的影响。因此有必要利用现代化的自然语言处理和数据挖掘技术,对网络数据进行分析处理,为相关政府职能部门及时准确地提供网络舆情信息具有十分重大的意义。本文针对网络舆情的特点,研究了网络舆情分析系统的实现方法,论文阐述了此课题的研究背景及意义、国内外研究现状、研究目标和论文结构等内容,介绍了Hadoop平台在大数据处理时的优势、数据采集技术、文本向量空间模型、文本聚类算法以及舆情功能的实现。本系统借助Hadoop云平台在数据处理方面的优势,分为数据采集、数据预处理、数据聚类、舆情分析、结果呈现五个功能模块,实现了网络舆情分析系统所需的各项功能。其中,数据采集模块根据数据源的特点采取不同的数据采集技术,对于新闻网站,利用Nutch进行数据采集,对于微博网站,利用其本身提供的API接口进行数据采集;数据预处理模块采用FudanNLP进行中文分词处理,并建立停用词表,对助词、副词、介词等无实际意义的词进行过滤,在此基础上利用TF-IDF算法建立文本的向量空间;在数据聚类模块中,根据汉语言的自身特点,如近义词、一词多义等,提出了Kmeans、Canopy与语义相似度相结合的聚类算法,提高了聚类的准确性,从而提供了网络舆情的发现能力;在舆情分析模块实现了敏感话题检测、热点话题检测、内容倾向性分析等舆情指标;在结果呈现模块,利用网页呈现网络舆情信息。本文通过对网络舆情分析系统的功能进行测试、分析,验证了网络舆情分析系统已经达到了预定设计目标。最后本文针对系统的缺陷,对未来的工作做了描述。