基于Hadoop的警用舆情分析系统的设计与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:udbnny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济社会的发展以及互联网的普及,尤其是移动互联网用户的快速增长,人们的生活越来越离不开网络,从网上购物,获取资讯,发布个人对某些事件的意见和看法都变得越来越方便。同时,网络信息的呈现方式也越来越多样化,从电子邮件,门户网站,BBS论坛到现在的博客,社区,即时通讯以及SNS社交网络等,都极大的丰富了网络用户参与互动的方式。广大网民通过互联网发布个人对某些公共事务的看法以及对其持有的情绪的总和被称为网络舆情。由于网络舆情的特点,在热点问题上会引发广泛的社会影响,特别是负面的影响,如果不能合理的引导,负面的舆论极大威胁着社会公共秩序和社会安全稳定。作为社会稳定和安全的捍卫者,增强网络舆论的实时监测能力,及时对负面舆情进行有效的引导,积极化解网络的负面舆论信息,已经成为公安机关的重要工作之一。上述工作在传统的舆情监控软件已经可以实现,然而由于互联网存储着规模硕大的海量信息,传统的舆情监控系统已经不足以准确、快速的实现对舆情的实时监控。衡量舆情系统性能的一个重要指标就是处理舆情信息的实时性。为了实现舆情的实时监控,本课题将Hadoop关键技术引入到警用舆情分析系统中,以互联网数据结构为基础,结合Hadoop的关键技术特性,设计并实现了基于Hadoop的警用舆情分析系统,利用Hadoop分布式海量数据处理性能,实现高性能的海量数据挖掘,帮助警务部门实现对网络舆情的实时监控,维护社会的安定。本文从公安机关的工作需求入手,详细分析了公安网络管理工作的运行模式,利用社会网络分析技术,对互联网数据进行挖掘分析。本文的主要包括如下三部分:1)分布式网络数据爬虫,详细讲述了该爬虫系统的构建方式,模块功能,实现方法等。该网络爬虫系统基于多网关出口,能有效解决网站对爬虫的屏蔽,提高了爬虫的时间效率和应用效率,解决系统的数据来源问题;2)Hadoop舆情分布式文件系统,作为警用舆情分析系统的存储结构,将采集来的数据存入该文件系统中,将这些数据进行信息抽取,网页去重,并结合Lucene和Solr对网页建立相关索引,并将该索引存入HBase数据库中,提供搜索功能;3)MapReduce并行编程模型,在基于Hadoop平台的Mahout算法库上对海量网络数据实现多角度多层次数据分析和挖掘,包括文本的聚类分析,热度分析,舆情评测等,发现舆情热点,展示舆情态势。
其他文献
诊断学课间实习是医学院校的学生第一次接触并了解临床诊断工作的特殊阶段,对于培养合格的、适应时代发展的医务工作者有重要意义.作为教学医院的领导和全体临床医护人员,应
为了进一步提高烟草营销管理智能化、一体化、协作化功能,优化客户信息维护、市场信息采集、市场反馈收集、营销人员管理等功能,结合我国烟草公司目前实际的营销管理情况,依
议论文教学作为高中作文教学的重中之重,教师教学的效果不仅关系到学生的写作水平,还关系到学生理性思维能力的培养。但当前却普遍存在教学无据、教学无序、教学无方、教学无
多媒体教学是现代化教学手段在教学实践中的应用,运用多媒体电教手段可以增强学生的学习兴趣、加深对知识的理解,对提高课堂教学效率有很大的助益。从课堂电化教学的总目标、教
泥石流对建筑物和工程设施的淤埋是泥石流灾害的主要危害方式之一,淤埋不但严重威胁了人类的生命财产安全,而且制约了社会经济的发展。泥石流淤积厚度是泥石流最重要的参数之一,也是对泥石流灾害评估和防治的重要参数,因此研究泥石流淤积厚度,不仅有利于我们更好地掌握泥石流运动特性,还有助于我们进行有效的泥石流灾害治理。淤积厚度的获取主要是通过野外调查和参数计算两种方式,在参数计算中,泥石流屈服应力与泥石流最大淤
自古以来,人们对美的向往,自信的追求一直是方兴未艾。尤其在当今物资生活十分丰富,物流体系更加完备,消费渠道丰富多样、居民生活水平不断增强,消费能力不断升级的情况下,人们对自身的关注,追求自信与美的欲望更加强烈。其中,年轻人消费能力越来越强,尤其在护肤品方面表现的尤为明显,他们对新产品和服务的接受能力强,正处于品牌偏好建立的关键阶段。然而,在众多国产品牌纷纷涌起,品牌之间护肤品同质化问题十分严重的背