论文部分内容阅读
随着经济社会的发展以及互联网的普及,尤其是移动互联网用户的快速增长,人们的生活越来越离不开网络,从网上购物,获取资讯,发布个人对某些事件的意见和看法都变得越来越方便。同时,网络信息的呈现方式也越来越多样化,从电子邮件,门户网站,BBS论坛到现在的博客,社区,即时通讯以及SNS社交网络等,都极大的丰富了网络用户参与互动的方式。广大网民通过互联网发布个人对某些公共事务的看法以及对其持有的情绪的总和被称为网络舆情。由于网络舆情的特点,在热点问题上会引发广泛的社会影响,特别是负面的影响,如果不能合理的引导,负面的舆论极大威胁着社会公共秩序和社会安全稳定。作为社会稳定和安全的捍卫者,增强网络舆论的实时监测能力,及时对负面舆情进行有效的引导,积极化解网络的负面舆论信息,已经成为公安机关的重要工作之一。上述工作在传统的舆情监控软件已经可以实现,然而由于互联网存储着规模硕大的海量信息,传统的舆情监控系统已经不足以准确、快速的实现对舆情的实时监控。衡量舆情系统性能的一个重要指标就是处理舆情信息的实时性。为了实现舆情的实时监控,本课题将Hadoop关键技术引入到警用舆情分析系统中,以互联网数据结构为基础,结合Hadoop的关键技术特性,设计并实现了基于Hadoop的警用舆情分析系统,利用Hadoop分布式海量数据处理性能,实现高性能的海量数据挖掘,帮助警务部门实现对网络舆情的实时监控,维护社会的安定。本文从公安机关的工作需求入手,详细分析了公安网络管理工作的运行模式,利用社会网络分析技术,对互联网数据进行挖掘分析。本文的主要包括如下三部分:1)分布式网络数据爬虫,详细讲述了该爬虫系统的构建方式,模块功能,实现方法等。该网络爬虫系统基于多网关出口,能有效解决网站对爬虫的屏蔽,提高了爬虫的时间效率和应用效率,解决系统的数据来源问题;2)Hadoop舆情分布式文件系统,作为警用舆情分析系统的存储结构,将采集来的数据存入该文件系统中,将这些数据进行信息抽取,网页去重,并结合Lucene和Solr对网页建立相关索引,并将该索引存入HBase数据库中,提供搜索功能;3)MapReduce并行编程模型,在基于Hadoop平台的Mahout算法库上对海量网络数据实现多角度多层次数据分析和挖掘,包括文本的聚类分析,热度分析,舆情评测等,发现舆情热点,展示舆情态势。