论文部分内容阅读
随着互联网和信息技术的迅猛发展,爆炸式增长的海量信息带来了信息过载问题。信息抽取技术能够从繁杂的自然语言中抽取出结构化的信息,对知识库构建、知识问答、信息检索、舆情监控、新闻推荐、量化投资等应用效率的提升起到了非常重要的作用。事件抽取是信息抽取的高级形式和重要内容,因此研究事件抽取方法及其在经济生活中的应用具有重要的理论意义和实际意义。本文以基于事件抽取的预测模型为主要研究内容,提出了基于新闻事件抽取的预测框架。除了提出新的事件抽取方法外,还按照预测目标的属性,分别从离散型变量预测任务和连续型变量预测任务研究了有代表性的基于新闻事件抽取的预测模型。本文的主要研究内容和创新包括:一、提出了基于新闻事件抽取的预测框架(EEPREDICT)。提出的预测框架主要包含事件抽取模块和预测模块。针对事件抽取模型和预测方法众多的问题,本文梳理了事件抽取模型选择的原则和预测方法选择的原则,为设计具体的基于新闻事件抽取的预测模型提供了方向。二、提出了基于句法和语义特征融合的中文事件抽取方法(CHEE)。目前基于深度学习的事件抽取模型大多是基于预训练模型的,而多数预训练模型只考虑了序列特征,忽略了句法特征。另一方面由于中文语言的特殊性,中文事件抽取不及英文等语言的事件抽取效果好。为了解决以上两个问题,本文针对中文语言特点,首先提出了中文字符级句法特征对齐算法;然后基于此算法又提出了句法和语义特征融合的中文事件抽取方法(CHEE)。在真实数据集上的实验结果表明,提出的方法能够显著提高中文事件抽取的性能。三、研究了基于新闻事件抽取的离散变量预测模型——以新闻推荐为例,提出了基于事件抽取的新闻推荐框架。为进一步改进中文事件抽取方法的效率,从神经网络设计结构上对CHEE进行改进,提出了LC-CHEE模型。目前新闻推荐场景多特征融合框架中存在两个不足:(1)利用新闻正文时采用注意力机制从全文文本中捕捉重要词汇,此种方法获取的特征不够精细、噪音大;(2)在推荐系统框架中引入了过多的注意力参数,同时增大了训练语料的需求。针对这些问题,首先利用改进的LC-CHEE模型从新闻文本中抽取中文事件信息;然后提出一个基于事件抽取的新闻推荐框架(EENR)。一方面EENR利用事件抽取来抽象更高层次的新闻事件特征;另一方面EENR还使用两阶段训练策略来减少推荐网络后续部分的参数。在真实新闻推荐数据集上的实验结果表明,提出的EENR显著提高了新闻推荐的性能。四、研究了基于新闻事件抽取的连续变量预测模型——以仇恨犯罪预测和原油价格预测为例,提出了基于事件抽取的仇恨犯罪预测框架和原油价格预测框架。(1)针对仇恨犯罪预测相关影响因素难以量化的问题,本文首先构建了基于局部特征和全局特征的事件抽取模型;然后利用该模型从新闻报道中抽取仇恨犯罪事件,并根据相关仇恨犯罪动因理论构建事件因子;最后提出了一个基于事件抽取的仇恨犯罪预测框架(EEHCP)。在真实的仇恨犯罪数据集上的实验结果表明,提出的EEHCP显著提高了仇恨犯罪预测的性能。(2)国际原油价格除供求关系外,很大程度上还受经济发展水平、金融市场、局部冲突或战争、政治事件等多种因素的影响。最近的研究大多是直接利用新闻标题或主题模型提取新闻文本特征,并未深入挖掘新闻包含的事件信息,本文主要研究了如何利用开放域事件抽取方法来增强国际原油价格预测的问题,并提出了一个多特征融合的原油价格预测框架(AGESL)。主要创新点有两个:将开放域事件抽取算法引入到原油价格预测问题,解决了金融价格预测对新事件敏感的问题;提出了一个融合时间序列、情感分析、事件等多特征的原油价格预测框架AGESL,丰富了现有原油价格预测模型。在真实国际原油价格指数数据集上的实验结果表明,提出的AGESL框架能显著提高国际原油价格预测的性能。本文以基于新闻事件抽取的预测模型为主要研究内容。首先提出了基于新闻事件抽取的预测框架并确立了事件抽取模型和预测方法选择的原则;然后根据预测框架模块分别做了研究。事件抽取模块提出了一个新的中文事件抽取方法;预测模块分别在离散变量预测任务和连续变量预测任务选取有代表性的应用研究了具体的预测模型。本文提出的事件抽取方法和具体预测模型都在真实数据集上做了实证检验,实验结果也证明了提出的预测模型框架的有效性。本文提出的事件抽取方法和基于事件抽取的预测模型,对信息抽取及其应用研究具有重要的理论和实际价值。