论文部分内容阅读
随着互联网的迅猛发展,网络的普及率越来越高,使得网络超越大众媒体成为广大群众获知、抒发自己对各大突发新闻事件、热点新闻事件等的看法、观点、态度的重要的新的渠道平台。因此,如何有效及时的获取有效的新闻信息,分析新闻信息,发现其中的突发事件、热点事件成为当今信息检索领域重要的研究重点和热点。话题检测技术是解决上述问题的重要方法,该技术主要是从网络新闻数据流中及时的发现话题,并对已发现的话题进行实时的后续关联检测,对相关话题进行全面记录,更便捷的使人们了解话题的整体概况,此外,同时为相关政府人员及时的了解突发事件、热点事件的发展情况,掌握事件的发展动态并及时的控制和引导相关话题的发展趋势等,提供了极大的便利。目前,在微博突发话题检测中,存在特征词抽取不全、准确率不高的问题;在话题关联检测中,存在静态阈值和虚假相关报道的问题。本文主要是针对上述问题进行研究,首先,研究了突发词抽取方法,然后研究了关联检测中动态阈值和解决虚假相关报道的方法。即主要有一下两个方面:1)研究微博突发词抽取及突发话题检测方法,提出一种基于突发词的微博突发话题检测方法越来越多的人们运用微博来发表对某一事件的看法,使得研究微博上的突发话题具有重要的研究意义和价值,根据微博文本短、数据量大、用词不规范,当一个突发话题出现时往往伴随了大量突发词的出现的特点,提出了一种基于突发词的微博突发话题检测方法。该方法首先根据词语的词频和文档频次进行突发词的初步筛选,得到候选突发词;然后结合发表微博的用户信息即用户影响力以及词语的词频逆文档频率得到词语的权重,再然后抽取权重较高的词作为表征突发话题的突发词,最后运用改进的Single-Pass聚类算法对抽取出的突发词进行聚类,从而完成微博突发话题的检测。实验结果表明该方法提高了突发词抽取和检测的准确性。2)研究话题相似度计算和动态阈值设定的方法,提出一种基于KL距离的双重过滤话题关联检测方法在话题关联检测中,存在阈值设置和虚假相关报道的相关问题,为了较好的解决这两方面的问题,提出一种基于KL距离和命名实体的话题关联检测方法。首先,将KL距离运算得到的距离值作为最初的阈值,考虑到新闻报道具有时间特性,提出动态阈值方法,将相似度值与动态阈值比较,得到候选相关报道;然后,思考到命名实体对区分相似话题具有重要作用,所以,把命名实体提取出来,话题的最终检测经过比较命名实体相同和相似的个数完成。实验证明了动态阈值方法是高效的,大大改善检测效果。