论文部分内容阅读
随着互联网和网络技术的飞速发展,网络成为一种人们获取信息的新兴媒体和渠道。面对互联网上呈指数式增长的信息数据,怎样从这浩瀚的信息海洋中获取需要的以及感兴趣的信息,也成为信息时代人们普遍关注的问题。热点话题发现技术是话题检测与追踪技术在实际中的应用,它能够从网络信息流中发现热点话题,帮助人们更加全面的了解和认识一个事件,在政府、金融、信息安全等诸多领域有很大的实际应用前景。本文首先概括介绍了话题检测与追踪技术国内外的发展与研究现状,接着介绍了热点话题发现技术国内外的研究概况,分析和总结热点话题发现存在和面临的问题。针对这些问题,本文做了重点研究和改进,所做主要工作如下:第一,本文综合考虑媒体和用户两方面因素,通过融合两方面的特征,提出一种基于新闻报道和微博的热点话题热度计算公式,对话题进行热度评估。利用热度计算公式对话题热度进行评定得到热度值,然后按照热度值对话题进行排序,最后得到任意一段时间内的话题热度排序。方便人们及时了解最新、最热话题,同时利于政府部门监控和引导网络舆论。第二,对话题发现算法做了改进,提出了一种基于关键词的网络热点话题发现算法。定义了关键词,并用关键词的集合对话题进行表示。在改进的话题发现算法中,采用两层聚类策略,首先对新闻的标题向量进行第一次聚类,找出新出现的话题,设定初始阈值,对于满足条件的报道合并到其对应的话题集。接着对话题里存放的新闻报道进行第二次聚类,利用本文中提出的热度计算公式进行热度分析,最后发现某时间段内的热点话题。第三,将热点话题的热度值计算方法和改进的热点话题发现算法应用到网络舆情分析与监测系统中,对应用系统进行了整体介绍,详细的说明了系统各模块的功能以及实现过程,最后结合具体的实际案例验证本文所做工作的可行性和实际应用性。