论文部分内容阅读
随着国家、各行业的企业对网络舆情信息的日益重视,政府与企业对网络舆情信息的监控的需要也随着增加,所以开发必要的舆情监控系统来应对来自互联网上的舆情压力和群众性事件成为需要。由于互联网传播具有虚拟性、隐蔽性、自由性、开放性、发散性和渗透性等特点,从而造成了网络舆情信息的空前繁荣,网络舆情信息的丰富化,信息量大,类别繁多等特点,注定依靠人工筛选与分类统计难以满足网络舆情监控的要求。网络舆情系统实时的在互联网上采集信息,对信息进行智能分析,并用友好的方式呈现给用户,有利的辅助用户正确的处理舆情危情。本文首先研究了网络舆情监控系统的研究现状与发展趋势,对海量舆情信息的获取与话题发现与追踪的相关内容进行了研究,并重点的研究了网络爬虫的设计,话题发现算法和模型,对多种基于聚类进行话题发现的算法的基本思想、优点、不足进行了分析总结。其次接下来研究了网络舆情监控系统的总体设计,在使用开源的网络爬虫Larbin对新闻、论坛、博客进行采集的基础上,并对网络爬虫在原有的基础上进行改进,能够很好的适应本系统的要求。在舆情信息预处理模块中对文本分词、文本向量化、特征提取与特征权重的计算、网页净化、网页排重、网页自动摘要等技术做了简要的说明。最后详细的说明话题的发现与追踪的研究,针对海量舆情信息的特点对话题检测和话题跟踪进行了设计。在信息文本的表示中,主要介绍了空间向量模型,包括介绍了设置特征项与权重,特征维数等。并通过改进相似度算法,提高聚类算法的效率。通过对比各个聚类算法,提出了一个混合聚类算法SHDC。最后在话题追踪的研究中,设计了一种多维特征的话题追踪模型,最后证明此模型能够有效的区分相似与相同的事件,正确的追踪互联网上已经出现的话题。总之,本文在话题发现与热点话题追踪方面进行深入的研究,并实现了一个系统模型,在网络舆情信息技术的实用化上进行了分析,文章最后通过运行实例和对比分析验证了模型的可行性和有效性。