论文部分内容阅读
随着互联网行业的发展,信息的传播变得越来越迅速,公众对于某个事件进行讨论的成本也越来越低。在这种情况下,对于一个热门事件,不管真实与否,都会被迅速的传播开来。消息的传播成本很低,同时国家对于网络评论还没有很详细的法律去治理,某些对于政府机关的负面舆论,不管真实与否,都会被迅速的传播,对政府机关的形象造成了很严重的影响。为了解决上述的这样一个问题,需要设计并实现一个能够监控网络舆情的系统,这个系统能够在最短的时间内发现尽可能多的舆情内容,并且准确的识别出舆情的内容相关事件、事件的正负面以及舆情相关的个人或者单位。此外,还需要该系统能够将舆情的内容、舆情相关的个人(或者单位)、舆情传播路径等信息形象地展示出来,并且给予一定的舆情状态应对指导。因此,本文设计并实现了基于网络爬虫和中文分词技术的舆情监控系统。首先,本文所涉及的系统的网络爬虫子系统根据配置的网站库从互联网抓取网页内容,将抓取的内容(主要包括网页的标题、正文、URL等)存储在本地;然后,使用基于Spring框架、Hibernate框架搭建的分析系统读取本地存储的网页内容,分析出网页是否有舆情内容,有舆情内容的分析出舆情相关的事件、人物等数据;最后,通过ssh框架搭建的舆情显示系统,将分析后的数据在网页上显示出来。该方案的各个系统之间相辅相成,缺一不可。本文涉及的主要是分析的模块内容,也是本系统内容。如果某一模块出现问题,那么舆情系统都不可能正常的工作。该方案的优点是舆情发现的时效性强、覆盖面广、相关性准确度高。抓取网页模块和分析模块并行工作,基本可以保证舆情在网络上出现的一小时内即可被抓取至本地,半小时内即可分析完成,无延迟的显示了网页上。同时,由于使用了准确的分词器系统,并且设计了一套自有的分析算法,促使可以分析出更为准确的分析结果。最后,前台网页根据客户,在不同的客户页面显示与当前客户相关的数据,同时,前台的筛选规则可以快速而准确地筛选出客户更为关注的数据。