互联网舆情监控系统的设计与实现

被引量 : 33次 | 上传用户:jbhjyh12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来互联网技术的不断发展,我国的网民人数越来越多,以网民为主体的互联网在整个社会舆论中扮演着越来越重要的角色,近五年不断出现的各种网络事件表明网络已经逐渐成为民众表达自己思想和观点的主要媒介和平台。由于网络的开放性、包容性、自由性和无源性,对于网络中发生的舆情事件,我国一直缺乏有效的监管手段,这导致近几年频频发生网络舆情事件,许多政府机构、国家事业单位、企业公司或普通个人频频被卷入其中。因此,社会各界都强烈需要有一种可靠有效的方法来实现对网络舆情的监控。针对上述情况,本文介绍了互联网舆情监控方面的若干关键技术,然后给出了舆情监控系统的需求分析、设计方案和具体实现。本文先着力研究和介绍了网络舆情监控中主要涉及到的有关技术,包括网络爬虫技术和主题爬虫技术及相应的搜索策略,研究了在Nutch这个开源搜索引擎框架下基于ICTCLAS4J的中文分词技术的实现方法,研究了文本分类中涉及到的特征抽取技术和文本分类器的各种分类模型,包括信息增益、X2统计与互信息等,详细介绍了TF/IDF这种典型、有效的文本特征抽取算法,概要介绍了kNN、朴素贝叶斯和Rocchio这三种应用较为广泛的文本分类器模型,比较了C/S架构和B/S架构各自的优劣特点。然后,本文分析了一套成熟的、实用的、高效的、准确的互联网舆情监控系统的相关需求,包括系统检测范围、系统功能需求、系统业务需求、系统性能需求、前端用户界面需求、系统安全需求、数据采集需求和数据处理需求等,并且分析了不同采集对象的各自特点,包括论坛、新闻评论、博客、微博和百度贴吧。针对上述需求,紧接着,本文给出了一个互联网舆情监控系统的概要设计方案和详细设计方案,包括,系统总体架构设计方案、系统后台架构设计方案、系统前台架构设计方案、系统生命周期设计,以及主要的几个子系统的设计方案,包括信息采集子系统、信息处理子系统、舆情告警子系统和舆情引导子系统,并给出了定向爬虫模块和自动灌水模块的详细设计方案。最后,根据上述设计方案,本文给出了一种实现示例,详细介绍了所采用的开发平台和数据库系统,介绍了主要开发语言和主要开发工具,最后,概要展示了舆情获知、负面舆情和敏感信息的最终前台实现效果。
其他文献
进入21世纪以来,我国加快了推进社会主义现代化建设的步伐,同时面临着更多的挑战与考验。在全球多元化格局下,一个国家的真正强大绝不止是军事力量,甚至不只是经济力量,更应
[研究背景]据2012年中国肿瘤登记年报报告,结直肠癌(Colorectal carcinoma,CRC)和胃癌(Gastric cancer,GC)是我国大陆地区癌症发生(23.0%)和死亡(22.2%)的主要类型,术后复发和转移为患者
随着中国加入WTO世贸组织,中国的国门逐渐向世界敞开,越来越多的外国人想要了解中国,了解中国的文化,越来越多的外国学生来到中国学习汉语,汉语也被看作国际交流的重要语种之
《四川水泥》是我国水泥行业发行量较大的刊物。作为科学技术的媒体、学术讨论的讲坛,《四川水泥》的30年是伴随改革开放的30年;实际上也从一个侧面反映了中国水泥科技巨大进步
20世纪80-90年代中期,我国仍处于传统的人事管理阶段,人才的管理与开发受到很大程度上的制约。90年代末以来,我国处于从人事管理向人力资源管理过渡的阶段。随着国家天津滨海
透视《史记》的篇章,我们可以发现司马迁塑造的人物形象和他本人身上具有很多优秀的品质,蕴含着巨大的人格魅力。也即坚持正义、忠于祖国的高贵品格;忍辱发愤的顽强毅力;勇敢坚定
网络编码(Network coding)的核心思想是网络中参与数据转发的节点在进行转发之前先对接收到的信息进行编码等算术处理。这个新的传输模式打破了传统意义上中继节点仅负责转发
矮塔斜拉桥主梁刚度相对较大,受力状态介于斜拉桥与连续梁桥之间。目前常用的索力优化方法大多基于常规斜拉桥,并不完全适用于矮塔斜拉桥。本文在深入研究有关优化理论及桥梁
自1950年第一张信用卡问世后,信用卡业务因其自身所具有的强大的综合功能得到了商业银行的重点关注,短短几十年来,得到了迅猛的发展。我国自2003年“信用卡元年”开始,国内商
乙型肝炎病毒(HBV)感染是全球性的主要公共卫生问题,慢性感染者超过3.6亿。HBV慢性感染是肝硬化(LC)和肝细胞癌(HCC)的主要危险因素。HBV在感染早期,尤其是在乙肝e抗原(HBeAg)阳性阶段,