论文部分内容阅读
随着近年来互联网技术的不断发展,我国的网民人数越来越多,以网民为主体的互联网在整个社会舆论中扮演着越来越重要的角色,近五年不断出现的各种网络事件表明网络已经逐渐成为民众表达自己思想和观点的主要媒介和平台。由于网络的开放性、包容性、自由性和无源性,对于网络中发生的舆情事件,我国一直缺乏有效的监管手段,这导致近几年频频发生网络舆情事件,许多政府机构、国家事业单位、企业公司或普通个人频频被卷入其中。因此,社会各界都强烈需要有一种可靠有效的方法来实现对网络舆情的监控。针对上述情况,本文介绍了互联网舆情监控方面的若干关键技术,然后给出了舆情监控系统的需求分析、设计方案和具体实现。本文先着力研究和介绍了网络舆情监控中主要涉及到的有关技术,包括网络爬虫技术和主题爬虫技术及相应的搜索策略,研究了在Nutch这个开源搜索引擎框架下基于ICTCLAS4J的中文分词技术的实现方法,研究了文本分类中涉及到的特征抽取技术和文本分类器的各种分类模型,包括信息增益、X2统计与互信息等,详细介绍了TF/IDF这种典型、有效的文本特征抽取算法,概要介绍了kNN、朴素贝叶斯和Rocchio这三种应用较为广泛的文本分类器模型,比较了C/S架构和B/S架构各自的优劣特点。然后,本文分析了一套成熟的、实用的、高效的、准确的互联网舆情监控系统的相关需求,包括系统检测范围、系统功能需求、系统业务需求、系统性能需求、前端用户界面需求、系统安全需求、数据采集需求和数据处理需求等,并且分析了不同采集对象的各自特点,包括论坛、新闻评论、博客、微博和百度贴吧。针对上述需求,紧接着,本文给出了一个互联网舆情监控系统的概要设计方案和详细设计方案,包括,系统总体架构设计方案、系统后台架构设计方案、系统前台架构设计方案、系统生命周期设计,以及主要的几个子系统的设计方案,包括信息采集子系统、信息处理子系统、舆情告警子系统和舆情引导子系统,并给出了定向爬虫模块和自动灌水模块的详细设计方案。最后,根据上述设计方案,本文给出了一种实现示例,详细介绍了所采用的开发平台和数据库系统,介绍了主要开发语言和主要开发工具,最后,概要展示了舆情获知、负面舆情和敏感信息的最终前台实现效果。