基于网络新闻流的热点事件检测与跟踪算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:junyi2050
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络为人们的生活带来极大的方便,网络已经成为人们日常生活中不可或缺的一部分。但是,面对网络上繁杂的网络新闻,人们很难快速的在这些海量的网络新闻中找到自己感兴趣的新闻事件,也无法及时的获取与自己感兴趣事件相关的后续新闻报道。因此,如何快速地从繁杂的网络新闻中检测热点事件成为了一个热点研究问题。本文以网络新闻流为研究对象,采用话题识别与跟踪的相关技术,设计了两个从新闻流中检测热点事件以及对事件进行跟踪的算法。可以使用文本聚类算法,通过对文本集进行聚类,来检测出热点事件并对新闻进行组织。但是大多数的文本聚类算法都是静态的,静态聚类算法会重新对数据集中的全部对象进行聚类,时间复杂度比较的高。本文提出的算法要处理的新闻流是动态的数据集,采用增量聚类的思想从新闻流中检测出事件。本文从以下几个方面进行了研究:(1)本文对新闻与事件模型的构建做了深入研究。新闻与事件中包含一些与它们的主旨密切相关的关键字,本文以这些关键字为特征项来构建新闻与事件的向量空间模型。当有新闻归入到一个事件中时,对事件向量的特征项的权重进行调整,从而可以动态的反映一个事件的发展过程,非常适合用于在线热点事件检测。(2)本文提出了一种基于特征项权重的热点事件检测与跟踪算法。使用分词提取工具NLPIR[1]从新闻中提取与新闻相关的关键字,以这些关键字作为特征项来构建新闻向量空间模型。每进来一条新闻,就依次与事件库中的事件进行匹配,获取最大的相似度值,然后把相似度与给定的阈值进行比较,根据比较的结果来判断是把新闻归入到已有的事件中,还是把新闻作为一个新事件存储到事件库中。实验表明本文提出的算法可以比较有效的检测出一些热点事件。(3)本文提出了一种基于特征项增长趋势的热点事件检测与跟踪算法。通过对热点事件中特征项的权重随着时间的分布特征的研究,发现与事件主旨关系比较密切的特征项,权重随时间增长的比较快。因此,可以使用特征项的增长趋势来反映特征项的热度,根据特征项的这个特征,来设计新的相似度算法。通过对实验结果的分析,表明本文提出的算法可以比较有效的检测出一些热点事件。
其他文献
<正>本雅明曾写过一篇很有意思的文章,叫《讲故事的人》。多年来,我一直将它作为研究生的阅读材料之一。他在这个文章里面提出了一个重要的看法。他认为故事经历三个不同的时
期刊
为探讨nm23H1在肾母细胞瘤中的表达变化及临床意义,采用免疫组织化学方法对56例肾母细胞瘤标本中的nm23H1基因表达情况进行检测。结果:nm23H1低表达率为55.4%,按NWTSⅢ分期,Ⅲ、Ⅳ期肾母细胞瘤nm23H1低表达
以上海市城市总体规划为依托,遵循环境与经济协调发展的原则,制定了阶段实施的目标,确定了苏州河沿线区域的功能结构,特别是东段沿线地区的主要功能,并展望了周边城市空间环
目的 观察不同麻醉方法下实行开胸手术的肿瘤患者围手术期外周血清中可溶性白细胞介素-2受体(SIL-2R)、白细胞介素-6(IL-6)和肿瘤坏死因子-α(TNF-α)表达的动态变化,分析不同麻醉方法对患者免疫功能的
<正>文言文教学在"文"与"言"的关系处理上时有争议。传统文言文教学多采用"串讲"的方式,强调实词、虚词和句式等文言知识的讲解与分析,特别注重"言"的内容;新课改背景下的文
阎连科在法国翻译的成功根本上取决于他的写作的与众不同。把他的作品过分和政治联系是一种误读。他的写作是极度关注中国当下现实的一种写作,政治只是他关注的现实中的一个
本文通过文献记载认为《大禹治水图》玉山是在扬州建隆寺琢制而成,而且建隆寺具有场所、交通、环境、情感等多种有利因素被选为两淮地区的大型琢玉场所。
本研究探讨了银耳孢子发酵物(TSF)及与猪生长激素释放因子(pGRF)基因质粒合用对断奶仔猪生长、部分免疫指标以及肠道菌群的影响,同时与饲用抗生素效果作比较。选用48头(28±2
目的 评价BIS作为异丙酚靶控输注的反馈控制变量在腹腔镜胆囊切除术麻醉中的可行性。方法 40例行择期腹腔镜手术的病人随机分为两组,反馈靶控输注组和靶控输注组,每组20人。