论文部分内容阅读
随着互联网的飞速发展,一方面网络已成为人们获取和发布信息的重要工具。另一方面越来越多的人通过网络表达自己的利益诉求以及思想情绪。因此,对网络上发布的信息进行必要的、合理的监督管理,以自动化、智能化的方法分析网络舆情趋势,把握重大事件和突发性事件,为政府高层提供有力的辅助决策信息是网络监管部门的一项重要研究课题。话题检测与跟踪正是面向新闻媒体信息流进行未知话题识别和已知话题跟踪的网络舆情分析技术。
本文主要研究了面向互联网新闻流的话题检测与跟踪。重点讨论了如何建立更为适用的数据表示模型的问题。传统的话题检测与跟踪研究都是使用了基于特征词向量的文档模型,虽然这种模型在话题检测与跟踪的应用中表现出了较好的性能,但也存在明显的不足。从语言学的角度可知,词在文中所表达的意思主要由其上下文决定的。如果忽略了词在文中的上下文关系,而仅以词频或其它统计信息为特征,是难以全面捕捉与主题相关的信息的。为了解决这个问题,我们将寻求更具语义信息的短语作为词的补充特征来表示文档,因为短语能够充分利用词语搭配等上下文关系,并且可以表达较完整的概念。
因此,本文设计出一种基于句子索引图(Sentence index Graph,SIG)的短语匹配算法。它实现了对文本流的动态建模过程,适用于增量式话题聚类。SIG可有效地提取文档与话题之间共享的任何短语。换言之,SIG在进行短语匹配的过程中可以快速索引到与文档共享了短语的所有话题。
本文还对特征词和命名实体权重计算方法进行了改进。特征词的重要性不仅与它在文档中出现的次数有关,而且它还与话题的相关性以及话题类内的分布情况也有很大关系。因此,我们将当前已经获得的话题信息视为伪回馈(pseudofeedback),在此基础上设计出基于伪回馈的特征词权重计算方法。
实验证明,上述SIG方法与改进后权利重计算方法能够提高话题检测与跟踪的效果。