基于多数据源的热点话题自动发现技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:tangwu2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和网络技术的飞速发展,网络成为一种人们获取信息的新兴媒体和渠道。面对互联网上呈指数式增长的信息数据,怎样从这浩瀚的信息海洋中获取需要的以及感兴趣的信息,也成为信息时代人们普遍关注的问题。热点话题发现技术是话题检测与追踪技术在实际中的应用,它能够从网络信息流中发现热点话题,帮助人们更加全面的了解和认识一个事件,在政府、金融、信息安全等诸多领域有很大的实际应用前景。本文首先概括介绍了话题检测与追踪技术国内外的发展与研究现状,接着介绍了热点话题发现技术国内外的研究概况,分析和总结热点话题发现存在和面临的问题。针对这些问题,本文做了重点研究和改进,所做主要工作如下:第一,本文综合考虑媒体和用户两方面因素,通过融合两方面的特征,提出一种基于新闻报道和微博的热点话题热度计算公式,对话题进行热度评估。利用热度计算公式对话题热度进行评定得到热度值,然后按照热度值对话题进行排序,最后得到任意一段时间内的话题热度排序。方便人们及时了解最新、最热话题,同时利于政府部门监控和引导网络舆论。第二,对话题发现算法做了改进,提出了一种基于关键词的网络热点话题发现算法。定义了关键词,并用关键词的集合对话题进行表示。在改进的话题发现算法中,采用两层聚类策略,首先对新闻的标题向量进行第一次聚类,找出新出现的话题,设定初始阈值,对于满足条件的报道合并到其对应的话题集。接着对话题里存放的新闻报道进行第二次聚类,利用本文中提出的热度计算公式进行热度分析,最后发现某时间段内的热点话题。第三,将热点话题的热度值计算方法和改进的热点话题发现算法应用到网络舆情分析与监测系统中,对应用系统进行了整体介绍,详细的说明了系统各模块的功能以及实现过程,最后结合具体的实际案例验证本文所做工作的可行性和实际应用性。
其他文献
在 WDM 系统广泛应用的今天,WDM 网络的带宽已经可以满足每个用户的需求,但是系统的波长数目仍然大大少于实际的节点数目和用户数目。这就使得当两个或多个波长信号向相同的路
无线定位技术在提高网络性能方面具有积极的意义,同时无线定位业务被公认为未来最具吸引力的增值业务之一。WiMAX 由于支持移动性的无线宽带接入而受到业界的广泛关注,并被认为
随着网络技术的拓展深入,近年来网络中的业务数据量呈爆炸式增长,网络带宽的需求越来越大,波分复用(WDM,Wavelength Division Multiplexing)被广泛采用。密集波分复用(DWDM)