论文部分内容阅读
随着在线新闻媒体网站以及新闻客户端APPs的快速发展,它们每天产生海量的新闻报道,已经成为人们获取和关注国内外热点事件的主要途径。事件线抽取(StorylineExtraction)主要研究从海量的文本中抽出热门的事件,以结构化的形式表示事件,比如什么人,什么地方,什么机构,关键词以及相关主题等,并呈现出该事件是如何随着时间而不断变化。对于基于新闻文本的事件线抽取的研究具有重要的现实意义和巨大的应用价值。新闻文本具有实时性,持续性,高关注,文档质量高的特点,因而基于新闻文本的事件线抽取具有可行性和挑战性。另外,有监督的方法不能处理开放的事件线抽取,并且有监督的方法的实验效果依赖于标注语料的数量和质量,而标注大规模的语料通常需要耗费大量的人力、物力,所以本文针对无监督的基于新闻文本的事件线抽取方法进行研究,本文的主要贡献有:1.对基于新闻文本的无监督的事件抽取方法进行了研究,本文提出了-一种动态的事件线抽取(Dynamic Storyline Detection Model,DSDM)方法。DSDM是一种无监督的贝叶斯隐变量模型,利用之前时间段的事件线概率分布作为当前时间段事件线概率分布的先验参数来表示相同事件线中不同时刻的事件的依赖关系。本文详细阐述了该方法的模型表示和参数估计方法。将基于DSDM的事件线抽取方法分别在两个数据集上进行验证。第一个数据集是已标注的包含101,654条新闻文本的一周的数据集Ⅰ,第二个数据集是未标注的包含526,587条新闻文本的一个月的数据集Ⅱ。该方法对于事件线抽取的效果在数据集Ⅰ和数据集Ⅱ上都优于对比算法。2.针对DSDM模型存在不能够动态确定事件线的个数,采样复杂度过高以及关键词,主题精度低等问题,本文对DSDM模型进行改进,将DSDM与中餐馆模型(Chinese Restaurant Process,CRP)相结合来动态确定事件线个数,利用Metropolis-Hastings采样方法和LightLDA降低采样的复杂度,添加单词类型变量来提高关键词和主题抽取的精度,提出了一个新的动态事件线抽取模型(Dynamic Storyline Extraction Model,DSEM)。本文详细阐述了该方法的模型表示和参数估计方法。为了评估模型处理复杂事件线抽取的性能,本文人工构建包含各种类型事件线的23,376篇新闻文本的数据集Ⅲ。在数据集Ⅰ和数据集Ⅱ上,该方法的准确率相比DSDM分别提高5.23%和2.50%,在数据集Ⅲ上,该方法的准确率相比DSDM提高20.83%。3.针对DSEM存在的需要设置先验参数以及构建事件线中不同时间段事件的依赖关系需要人工设定等问题,本文从神经网络的角度对DSEM模型进行改进,利用文档的事件线概率分布与相应标题的事件线概率分布相似这一假设生成事件线,并且利用神经网络双输出来表示事件之间的依赖关系,提出了基于神经网络的事件线抽取(Neural Dynamic Storyline Extraction Model,Neural-DSEM)模型。我们在数据集Ⅰ和数据集Ⅱ上,该方法的准确率相比DSEM分别提高2.14%和2.78%。论文共六章。第一章介绍了研究背景与意义,研究动机以及主要内容。第二章介绍了基础理论知识及事件线抽取的相关技术。第三章介绍了基于DSDM的新闻文本的事件抽取方法及相关实验。第四章介绍了基于DSEM的新闻文本的事件抽取方法及相关实验。第五章介绍了基于Neural-DSEM的新闻文本的事件抽取方法及相关实验。第六章是对论文工作的总结以及未来工作的展望。