基于新闻文本的事件线抽取

来源 :东南大学 | 被引量 : 2次 | 上传用户:zuozqzq7013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线新闻媒体网站以及新闻客户端APPs的快速发展,它们每天产生海量的新闻报道,已经成为人们获取和关注国内外热点事件的主要途径。事件线抽取(StorylineExtraction)主要研究从海量的文本中抽出热门的事件,以结构化的形式表示事件,比如什么人,什么地方,什么机构,关键词以及相关主题等,并呈现出该事件是如何随着时间而不断变化。对于基于新闻文本的事件线抽取的研究具有重要的现实意义和巨大的应用价值。新闻文本具有实时性,持续性,高关注,文档质量高的特点,因而基于新闻文本的事件线抽取具有可行性和挑战性。另外,有监督的方法不能处理开放的事件线抽取,并且有监督的方法的实验效果依赖于标注语料的数量和质量,而标注大规模的语料通常需要耗费大量的人力、物力,所以本文针对无监督的基于新闻文本的事件线抽取方法进行研究,本文的主要贡献有:1.对基于新闻文本的无监督的事件抽取方法进行了研究,本文提出了-一种动态的事件线抽取(Dynamic Storyline Detection Model,DSDM)方法。DSDM是一种无监督的贝叶斯隐变量模型,利用之前时间段的事件线概率分布作为当前时间段事件线概率分布的先验参数来表示相同事件线中不同时刻的事件的依赖关系。本文详细阐述了该方法的模型表示和参数估计方法。将基于DSDM的事件线抽取方法分别在两个数据集上进行验证。第一个数据集是已标注的包含101,654条新闻文本的一周的数据集Ⅰ,第二个数据集是未标注的包含526,587条新闻文本的一个月的数据集Ⅱ。该方法对于事件线抽取的效果在数据集Ⅰ和数据集Ⅱ上都优于对比算法。2.针对DSDM模型存在不能够动态确定事件线的个数,采样复杂度过高以及关键词,主题精度低等问题,本文对DSDM模型进行改进,将DSDM与中餐馆模型(Chinese Restaurant Process,CRP)相结合来动态确定事件线个数,利用Metropolis-Hastings采样方法和LightLDA降低采样的复杂度,添加单词类型变量来提高关键词和主题抽取的精度,提出了一个新的动态事件线抽取模型(Dynamic Storyline Extraction Model,DSEM)。本文详细阐述了该方法的模型表示和参数估计方法。为了评估模型处理复杂事件线抽取的性能,本文人工构建包含各种类型事件线的23,376篇新闻文本的数据集Ⅲ。在数据集Ⅰ和数据集Ⅱ上,该方法的准确率相比DSDM分别提高5.23%和2.50%,在数据集Ⅲ上,该方法的准确率相比DSDM提高20.83%。3.针对DSEM存在的需要设置先验参数以及构建事件线中不同时间段事件的依赖关系需要人工设定等问题,本文从神经网络的角度对DSEM模型进行改进,利用文档的事件线概率分布与相应标题的事件线概率分布相似这一假设生成事件线,并且利用神经网络双输出来表示事件之间的依赖关系,提出了基于神经网络的事件线抽取(Neural Dynamic Storyline Extraction Model,Neural-DSEM)模型。我们在数据集Ⅰ和数据集Ⅱ上,该方法的准确率相比DSEM分别提高2.14%和2.78%。论文共六章。第一章介绍了研究背景与意义,研究动机以及主要内容。第二章介绍了基础理论知识及事件线抽取的相关技术。第三章介绍了基于DSDM的新闻文本的事件抽取方法及相关实验。第四章介绍了基于DSEM的新闻文本的事件抽取方法及相关实验。第五章介绍了基于Neural-DSEM的新闻文本的事件抽取方法及相关实验。第六章是对论文工作的总结以及未来工作的展望。
其他文献
战争是历史感最强的事件,人们往往在战争期间而不是和平年代才会说自己在“亲历历史”。然而战争也是社会总体代价最大的游戏。对此,两千多年前的古人早就有比较清晰的认识,
背景:蜕膜组织是重要的子宫内膜干细胞来源之一,从蜕膜组织中可分离出间充质干细胞。通过对其进行一定的诱导,可分化为不同的细胞类型。目的:从人早孕蜕膜组织中分离得到子宫
今本《竹书纪年》中的西周年代大略承古本《竹书纪年》而来,但作了不少改动。其中最大的改动是周初武王、成王的在位年数误取刘歆《世经》的推排结果,以成王十八年为古本《纪
"问题导学法"在初中数学教学中具有积极的推动作用,对初中数学"问题导学法"的探索势在必行,本文主要讲述笔者对其进行探索的一些心得与体会.
<正>胆石病是最常见的胃肠道疾病之一。我国在上世纪开展过两次全国范围的临床流行病学研究。1989年第1次调查显示,胆石病住院病人占普外科的10.05%,1994年第2次调查的胆石病
互联网技术的发展促进了媒介形式的更新换代,媒介形式的发展带来的则是信息量的几何式增长,伴随着信息量的暴增,人们的注意力成为一种稀缺资源,媒体信息的发布内容、发布形式
为解决现代城市水务管理信息化面临的水利、供水、排水和水生态管理等不同领域信息资源及业务应用整合与共享存在的问题,在分析城市水务管理中存在的政务、业务和企业运行管
杂字与"三百千"是我国古代尤其是明清时期两类并行的识字教材,在很大程度上两者相辅相成,它们不但在封建社会广泛流传,而且在新中国成立后也出现了许多改编、新编之作,为我国
小麦淀粉是小麦的主要成分,小麦在生长过程中会受到铅等重金属的污染。因此小麦在加工成小麦淀粉后不可避免地残留铅等有害重金属。铅是一种高度有毒物质,铅中毒具有非特异性