论文部分内容阅读
随着互联网技术的飞速发展,网络为人们的生活带来极大的方便,网络已经成为人们日常生活中不可或缺的一部分。但是,面对网络上繁杂的网络新闻,人们很难快速的在这些海量的网络新闻中找到自己感兴趣的新闻事件,也无法及时的获取与自己感兴趣事件相关的后续新闻报道。因此,如何快速地从繁杂的网络新闻中检测热点事件成为了一个热点研究问题。本文以网络新闻流为研究对象,采用话题识别与跟踪的相关技术,设计了两个从新闻流中检测热点事件以及对事件进行跟踪的算法。可以使用文本聚类算法,通过对文本集进行聚类,来检测出热点事件并对新闻进行组织。但是大多数的文本聚类算法都是静态的,静态聚类算法会重新对数据集中的全部对象进行聚类,时间复杂度比较的高。本文提出的算法要处理的新闻流是动态的数据集,采用增量聚类的思想从新闻流中检测出事件。本文从以下几个方面进行了研究:(1)本文对新闻与事件模型的构建做了深入研究。新闻与事件中包含一些与它们的主旨密切相关的关键字,本文以这些关键字为特征项来构建新闻与事件的向量空间模型。当有新闻归入到一个事件中时,对事件向量的特征项的权重进行调整,从而可以动态的反映一个事件的发展过程,非常适合用于在线热点事件检测。(2)本文提出了一种基于特征项权重的热点事件检测与跟踪算法。使用分词提取工具NLPIR[1]从新闻中提取与新闻相关的关键字,以这些关键字作为特征项来构建新闻向量空间模型。每进来一条新闻,就依次与事件库中的事件进行匹配,获取最大的相似度值,然后把相似度与给定的阈值进行比较,根据比较的结果来判断是把新闻归入到已有的事件中,还是把新闻作为一个新事件存储到事件库中。实验表明本文提出的算法可以比较有效的检测出一些热点事件。(3)本文提出了一种基于特征项增长趋势的热点事件检测与跟踪算法。通过对热点事件中特征项的权重随着时间的分布特征的研究,发现与事件主旨关系比较密切的特征项,权重随时间增长的比较快。因此,可以使用特征项的增长趋势来反映特征项的热度,根据特征项的这个特征,来设计新的相似度算法。通过对实验结果的分析,表明本文提出的算法可以比较有效的检测出一些热点事件。