论文部分内容阅读
事件抽取是信息抽取中一项重要的技术,该技术可以追溯到上个世纪80年代,随着大数据时代的到来以及自然语言处理技术的迅猛发展,事件抽取逐渐流行起来。事件抽取系统可以帮助人们从日益增多的海量信息中快速发现真正需要的信息,并且自动地将这些信息提取、分类以及重构。目前事件抽取已经在各个领域都有广泛的应用,企业可以从评论数据中抽取出用户对产品的评价,从而帮助企业改进产品;政府可以从新闻数据中抽取出每天的热点事件,从而帮助政府应对紧急事件。事件抽取在早期由于计算资源有限以及标注语料缺乏,一般都采用基于规则的方法。随着计算能力的提高和标注语料规模增多,事件抽取开始从基于规则的方法转变为基于统计的机器学习方法。近年来,随着深度学习的迅猛发展,研究者们开始利用神经网络来进行事件抽取。评论类事件抽取任务中评价对象和评价词抽取两个子任务是相互依赖和联系的,以及新闻类事件抽取任务中触发词和参与者抽取两个子任务是相互依赖和联系的,但是传统的神经网络做法是将子任务单独处理。本文在神经网络的基础上,就如何充分利用事件抽取子任务之间的特征信息来联合处理子任务展开了研究,并且在此基础上实现了中文军事新闻事件抽取系统。论文具体工作包括:1.本文首先将事件抽取任务定义为一个序列化标注任务,设计并实现了一个基于双向长短期记忆网络特征表示和条件随机场模型来进行评论类事件抽取。从实验结果来看,模型取得了比非神经网络方法更好的性能。2.为了使得评价对象的特征信息和评价词的特征信息相互充分利用,本文提出了基于注意力机制的多任务交互学习模型,希望通过注意力机制使得评价对象和评价词之间能够相互关注,从而可以准确地提取对方的特征信息。实验结果跟其它研究工作对比,本文设计的多任务交互模型在三个标准数据集上取得了目前最好或者相当的性能。3.本文在军事新闻领域定义了一个新的事件抽取任务,设计了基于触发词驱动的模板,然后基于传统模板规则的方法事件抽取。为了证明多任务交互模型是合理有效的,本文将多任务交互模型应用在这个新任务上,同时为了缓解触发词和参与者抽取过程中未登录词的情况,引入了两种领域内特征。实验结果表明,本文提出的多任务交互模型相对于基于模板规则的方法提升很多,同时提出的两种领域特征也使得模型有不错的提升。融合上述两种事件抽取方法,独立开发了面向中文军事新闻事件抽取系统,并且被国内某知名军事研究机构采用。本文的相关数据和代码公开在 https://github.com/qfzxhy/EventExtraction。