基于KL距离的微博突发话题检测研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:yxl0173
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,网络的普及率越来越高,使得网络超越大众媒体成为广大群众获知、抒发自己对各大突发新闻事件、热点新闻事件等的看法、观点、态度的重要的新的渠道平台。因此,如何有效及时的获取有效的新闻信息,分析新闻信息,发现其中的突发事件、热点事件成为当今信息检索领域重要的研究重点和热点。话题检测技术是解决上述问题的重要方法,该技术主要是从网络新闻数据流中及时的发现话题,并对已发现的话题进行实时的后续关联检测,对相关话题进行全面记录,更便捷的使人们了解话题的整体概况,此外,同时为相关政府人员及时的了解突发事件、热点事件的发展情况,掌握事件的发展动态并及时的控制和引导相关话题的发展趋势等,提供了极大的便利。目前,在微博突发话题检测中,存在特征词抽取不全、准确率不高的问题;在话题关联检测中,存在静态阈值和虚假相关报道的问题。本文主要是针对上述问题进行研究,首先,研究了突发词抽取方法,然后研究了关联检测中动态阈值和解决虚假相关报道的方法。即主要有一下两个方面:1)研究微博突发词抽取及突发话题检测方法,提出一种基于突发词的微博突发话题检测方法越来越多的人们运用微博来发表对某一事件的看法,使得研究微博上的突发话题具有重要的研究意义和价值,根据微博文本短、数据量大、用词不规范,当一个突发话题出现时往往伴随了大量突发词的出现的特点,提出了一种基于突发词的微博突发话题检测方法。该方法首先根据词语的词频和文档频次进行突发词的初步筛选,得到候选突发词;然后结合发表微博的用户信息即用户影响力以及词语的词频逆文档频率得到词语的权重,再然后抽取权重较高的词作为表征突发话题的突发词,最后运用改进的Single-Pass聚类算法对抽取出的突发词进行聚类,从而完成微博突发话题的检测。实验结果表明该方法提高了突发词抽取和检测的准确性。2)研究话题相似度计算和动态阈值设定的方法,提出一种基于KL距离的双重过滤话题关联检测方法在话题关联检测中,存在阈值设置和虚假相关报道的相关问题,为了较好的解决这两方面的问题,提出一种基于KL距离和命名实体的话题关联检测方法。首先,将KL距离运算得到的距离值作为最初的阈值,考虑到新闻报道具有时间特性,提出动态阈值方法,将相似度值与动态阈值比较,得到候选相关报道;然后,思考到命名实体对区分相似话题具有重要作用,所以,把命名实体提取出来,话题的最终检测经过比较命名实体相同和相似的个数完成。实验证明了动态阈值方法是高效的,大大改善检测效果。
其他文献
医学图像的分割和特征提取是医学图像处理中的关键技术,它们是医学图像识别的前提并为计算机辅助诊断提供了重要的信息。特征提取是标识图像的关键一步,如何准确、充分的提取
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,数据库不仅在数量上快速增长,规模也越来越大。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分
随着人们对信息安全的日益关注,作为保证数据安全的关键技术,密码学也得到了极大的发展。密码学应用已经渗透到社会各个领域,其中安全多方计算作为密码学的一个重要研究方向,为保
随着通信与计算机技术的迅速发展,越来越多的关键数据被存储在计算机系统中,这些数据的丢失或损坏将对企业造成难以估量的损失,因此计算机系统的高可用性具有格外重要意义。
数据挖掘(Data Mining, DM)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据挖掘受到了国内外的普遍关注,己经成为信息系统和计算机科学领域研究中最
交互式数字电视是当前广电系统数字化进程快速全面演进的必然途径,交互式数字电视的推广和普及最关键的条件是需要有很好的交互式应用作支持。国际上三大主流中间件标准MHP,D
知识库是专家系统的核心。由于每个领域的知识都有其自身的特点,并且学科间也存在交叉和重叠,所以知识的共享、重用是非常必要的。基于这些知识很多研究者建立了各自不同的知
医学图像的计算机辅助诊断已经成为人工智能应用领域的研究热点。本文针对人脑CT图像的计算机辅助诊断,提出了一种基于对称性的特征提取方法,完成了图像输入、特征提取、图像
以各类多媒体服务为代表的电信服务需求快速增长,使得厂商之间的竞争愈发激烈。为了在竞争中脱颖而出,各厂商纷纷开始寻求更高效、经济、快速的整体解决方案。对于他们而言面
伴随着计算机的出现和使用,出现了一种新的犯罪形式,这就是计算机犯罪。这种新型的犯罪活动正日益猖獗,给国家的发展和稳定带来了严重的危害,打击和防范计算机犯罪已经成为各