基于句子索引图的新闻流话题检测与跟踪研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:jinnengm9min
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,一方面网络已成为人们获取和发布信息的重要工具。另一方面越来越多的人通过网络表达自己的利益诉求以及思想情绪。因此,对网络上发布的信息进行必要的、合理的监督管理,以自动化、智能化的方法分析网络舆情趋势,把握重大事件和突发性事件,为政府高层提供有力的辅助决策信息是网络监管部门的一项重要研究课题。话题检测与跟踪正是面向新闻媒体信息流进行未知话题识别和已知话题跟踪的网络舆情分析技术。   本文主要研究了面向互联网新闻流的话题检测与跟踪。重点讨论了如何建立更为适用的数据表示模型的问题。传统的话题检测与跟踪研究都是使用了基于特征词向量的文档模型,虽然这种模型在话题检测与跟踪的应用中表现出了较好的性能,但也存在明显的不足。从语言学的角度可知,词在文中所表达的意思主要由其上下文决定的。如果忽略了词在文中的上下文关系,而仅以词频或其它统计信息为特征,是难以全面捕捉与主题相关的信息的。为了解决这个问题,我们将寻求更具语义信息的短语作为词的补充特征来表示文档,因为短语能够充分利用词语搭配等上下文关系,并且可以表达较完整的概念。   因此,本文设计出一种基于句子索引图(Sentence index Graph,SIG)的短语匹配算法。它实现了对文本流的动态建模过程,适用于增量式话题聚类。SIG可有效地提取文档与话题之间共享的任何短语。换言之,SIG在进行短语匹配的过程中可以快速索引到与文档共享了短语的所有话题。   本文还对特征词和命名实体权重计算方法进行了改进。特征词的重要性不仅与它在文档中出现的次数有关,而且它还与话题的相关性以及话题类内的分布情况也有很大关系。因此,我们将当前已经获得的话题信息视为伪回馈(pseudofeedback),在此基础上设计出基于伪回馈的特征词权重计算方法。   实验证明,上述SIG方法与改进后权利重计算方法能够提高话题检测与跟踪的效果。
其他文献
随着互联网的发展,网络上的数据呈现了指数级地增长,互联网的用户也不断增加。如何从各种数据中快速准确的找到人们需要的信息,并应对不同用户产生的不同规则及格式的数据,成
无线多跳网络(无线ad hoc网络)以其灵活的组网方式在军事战争、反恐救灾等领域获得广泛应用。由于无线多跳网络带宽有限,拓扑结构的动态变化,及节点在处理能力、通信协议等方
用户行为检测与识别作为复杂事件检测领域中的重要研究对象,具有广阔的应用前景和巨大的经济价值。特别是随着电子、通信等技术的发展,无线传感器得到了广泛的应用,基于无线
随着网络的普及和深入,网络蠕虫对计算机系统安全和网络安全的威胁日益增加,尤其是网络蠕虫的多样化传播途径和复杂的应用环境使网络蠕虫的爆发频率激增。而且随着计算机技术
工作流技术是实现企业业务过程建模、业务过程仿真分析、业务过程优化、业务过程管理和集合,最终实现业务过程自动化的核心技术。如何让工作流系统实现异构、分布和松散耦合
智能视频监控技术能自主对场景中的异常行为进行识别,面对日渐严峻的安全形势,其应用越来越广泛。目前大多数异常行为分析系统单纯从图像像素角度进行分析,不同场景下识别复
随着计算机技术、网络技术和分布式技术的发展,计算机应用正从单用户工作模式向多用户协同工作方向发展。计算机支持的协同设计就是在这种背景下产生的,其思想体现了人们的工作
传统的网络管理平台由于受到管理域的限制,只能管理内部用户的设备以及边界路由器,无法区分不同的外部用户的流量行为,也无法给出不同应用的性能评估,不能满足精细化网管的需
虹膜识别技术因虹膜的优秀生物特性,在众多的身份鉴别技术中脱颖而出,被列为最为安全与精确的身份鉴别技术,具有广阔的应用前景与重要的学术研究价值。由于虹膜识别技术应用
伴随着网络技术的迅猛发展,基于网络的企业级应用系统的开发与应用日益普及。随着系统规模的日益扩大,系统的数据安全越来越受到企业的重视。为此,人们设计了各种各样的权限