基于Hadoop平台的网络舆情分析系统的研究与实现

被引量 : 0次 | 上传用户:superlife123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
舆情是指在一定的时间和范围内,社会民众对社会出现的特定事件或现象的发生、发展和变化过程所展现的社会政治态度、信念价值观和想法的集合。随着互联网以迅猛的速度和规模在全世界发展,网络信息也同时以惊人的速度在急速增长膨胀,并且已经成为人类发展有史以来资源种类最全、资源规模最大、资源数量最多的综合信息库。可以说,互联网已然成为信息传播领域中影响最大的、最具发展潜力的主流媒体之一,也逐渐成为承载社会舆情的主流媒体之一。在这种情况下,负面的、消极的网络舆情很容易在广大网民之间传播,对社会的和谐发展产生极大的影响。因此有必要利用现代化的自然语言处理和数据挖掘技术,对网络数据进行分析处理,为相关政府职能部门及时准确地提供网络舆情信息具有十分重大的意义。本文针对网络舆情的特点,研究了网络舆情分析系统的实现方法,论文阐述了此课题的研究背景及意义、国内外研究现状、研究目标和论文结构等内容,介绍了Hadoop平台在大数据处理时的优势、数据采集技术、文本向量空间模型、文本聚类算法以及舆情功能的实现。本系统借助Hadoop云平台在数据处理方面的优势,分为数据采集、数据预处理、数据聚类、舆情分析、结果呈现五个功能模块,实现了网络舆情分析系统所需的各项功能。其中,数据采集模块根据数据源的特点采取不同的数据采集技术,对于新闻网站,利用Nutch进行数据采集,对于微博网站,利用其本身提供的API接口进行数据采集;数据预处理模块采用FudanNLP进行中文分词处理,并建立停用词表,对助词、副词、介词等无实际意义的词进行过滤,在此基础上利用TF-IDF算法建立文本的向量空间;在数据聚类模块中,根据汉语言的自身特点,如近义词、一词多义等,提出了Kmeans、Canopy与语义相似度相结合的聚类算法,提高了聚类的准确性,从而提供了网络舆情的发现能力;在舆情分析模块实现了敏感话题检测、热点话题检测、内容倾向性分析等舆情指标;在结果呈现模块,利用网页呈现网络舆情信息。本文通过对网络舆情分析系统的功能进行测试、分析,验证了网络舆情分析系统已经达到了预定设计目标。最后本文针对系统的缺陷,对未来的工作做了描述。
其他文献
技术进步是一国科技发展和经济增长的源泉和内在推动力。众多研究表明,在当前越来越开放的世界经济体系中,一国的技术进步往往不仅仅取决于本国的R&D投入,还依赖于国际技术溢
客户需求的变化,信息传递速度的加快,外部竞争环境的巨大的变化,保险企业面临着国内和国际市场的双重压力。保险企业的核心人才拥有专业技术、掌握着企业的关键资源,是形成保
就业是民生之本,也是构建社会主义和谐社会的重要内容。然而近年来,由于受诸多因素的影响,尤其是全球金融危机的冲击,中国高校毕业生的就业形势十分严峻。对此,需要包括政府
语气是汉语在一定的语境中表达作者主观意旨的重要内容,同时还体现一定的言语功能。新闻评论标题的语气不仅体现在其句式选择上,还体现在对语气隐喻的偏好上。研究在新闻评论
目的:乳腺癌内分泌治疗及免疫靶向药物赫赛汀生物治疗的前提是相应的雌激素受体、孕激素受体的阳性表达及cerbB,癌基因蛋白的过表达。目前对复发转移的乳腺癌病例受体表达情况
汉语语序在现代汉语语法里占有极其重要的位置,汉语是一种孤立语,缺少词形变化,主要依靠语序和虚词来表达语法关系和语法意义;英语是屈折语,词形变化丰富,主要依靠词形变化来表达词
班主任工作的基本任务是带好班级,教好学生。通过几年的初中班主任工作实践,笔者认为,做一名合格的班主任,不是一件容易的事。光凭干劲和热情是不够的,必须注重方式方法,才能
以分布于攀枝花大田地区侵入于混合岩中的辉绿岩脉和花岗质岩脉为研究对象,采集不同方向的辉绿岩脉和花岗质岩脉进行LA-ICP-MS锆石U-Pb定年,探讨它们形成地质背景、时代及其
我国并购市场日益活跃,近年来新兴高成长行业、轻资产行业高溢价现象突出,表现为中小板、创业板公司并购活动频繁,受到了诸多学者的关注。高溢价的背后往往是高估值,已有文献
存现句是汉语中一个比较有特点的句型,其本体研究历时悠久,可以说硕果累累。由于其具有独特的语用功能,在第二语言教学中一直被视为一个重要句型来教授。但是笔者在蒙古科技大学