网络舆情信息的话题发现和追踪技术的研究与应用

被引量 : 15次 | 上传用户:yjfc000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国家、各行业的企业对网络舆情信息的日益重视,政府与企业对网络舆情信息的监控的需要也随着增加,所以开发必要的舆情监控系统来应对来自互联网上的舆情压力和群众性事件成为需要。由于互联网传播具有虚拟性、隐蔽性、自由性、开放性、发散性和渗透性等特点,从而造成了网络舆情信息的空前繁荣,网络舆情信息的丰富化,信息量大,类别繁多等特点,注定依靠人工筛选与分类统计难以满足网络舆情监控的要求。网络舆情系统实时的在互联网上采集信息,对信息进行智能分析,并用友好的方式呈现给用户,有利的辅助用户正确的处理舆情危情。本文首先研究了网络舆情监控系统的研究现状与发展趋势,对海量舆情信息的获取与话题发现与追踪的相关内容进行了研究,并重点的研究了网络爬虫的设计,话题发现算法和模型,对多种基于聚类进行话题发现的算法的基本思想、优点、不足进行了分析总结。其次接下来研究了网络舆情监控系统的总体设计,在使用开源的网络爬虫Larbin对新闻、论坛、博客进行采集的基础上,并对网络爬虫在原有的基础上进行改进,能够很好的适应本系统的要求。在舆情信息预处理模块中对文本分词、文本向量化、特征提取与特征权重的计算、网页净化、网页排重、网页自动摘要等技术做了简要的说明。最后详细的说明话题的发现与追踪的研究,针对海量舆情信息的特点对话题检测和话题跟踪进行了设计。在信息文本的表示中,主要介绍了空间向量模型,包括介绍了设置特征项与权重,特征维数等。并通过改进相似度算法,提高聚类算法的效率。通过对比各个聚类算法,提出了一个混合聚类算法SHDC。最后在话题追踪的研究中,设计了一种多维特征的话题追踪模型,最后证明此模型能够有效的区分相似与相同的事件,正确的追踪互联网上已经出现的话题。总之,本文在话题发现与热点话题追踪方面进行深入的研究,并实现了一个系统模型,在网络舆情信息技术的实用化上进行了分析,文章最后通过运行实例和对比分析验证了模型的可行性和有效性。
其他文献
北宋熙宁二年,在宋神宗的支持下,王安石开始实施变法。那么,浩浩荡荡的王安石变法为何最终却以失败告终呢?本文针对王安石变法的实际实施途径进行探讨,分析王安石变法失败的
所谓阅读教学,就是教师带着学生在文章中进进出出走它几个来回。首先是走进。走进"孩子们",也走进"我",同时也走进了那个时代(写作的背景),进而走进文本。然后是走出。走出文
我们把选入语文教材中充满哲学、哲理思想的文章称为哲思类文本,如帕斯卡尔的《人是能思想的苇草》、周国平的《直面苦难》等课文。教学这类文本,就目前而言还是一个难题,究
<正>荀子处在我国封建制取代奴隶制、全国大统一的局面即将形成的时代,是战国后期的一位儒学大师。《劝学》作为《荀子》的开篇之作,系统地阐述了学习的意义、作用,学习应有
<正>"玉牒"专指中国封建社会帝王的家族谱书,文献记载自古即有,但由于战乱及朝代更替均未流传于世,唯有清代皇室爱新觉罗的家族谱《清玉牒》完整保存于世至今。它记载翔实,装
汉代是中国历史上的昌盛时期。政治一统,经济繁荣、国力强盛、疆域广阔。受时代的感召,文人们充满了豪迈的情怀,反映在文学上就表现为具有一种能够包括宇宙、总揽天人、贯通古今
金融危机以来,随着经济全球化与国际分工格局的不断深化,国与国之间的联系更加紧密。国际经济发生变动会影响一国经济,反之一国经济的改变也会给国际经济带来变化。随着分工格局
近几年来,尤其是2010年后,金属行业的发展已经滞涨,销售收入大幅降低,而企业的管理成本、销售费用急剧上升。企业种种潜在的问题不断涌现,目前这种粗放的、低效的、简单的管
我国宅基地使用权制度事关重大。对8亿农民来说,它是一项重要财产权,更是农民安居的基本保障;对农村集体经济组织来讲,它是从农村集体土地所有权中衍生的一种用益物权,是农村
聚落是村民聚居生息的空间,是生命承载之地。湘西土家族聚落是—个有着悠久历史文化的聚居地。我国传统聚落建筑文化是我国先人在长期生活实践中对居住环境归纳与总结出来的