论文部分内容阅读
人类是通过事件来认识和理解这个世界的。事件反映着现实世界中的运动、行为和变化,现实世界就是由无数个相互关联的事件所构成。因此,将“事件”作为人类知识单元符合人类认识世界的规律。对于事件的研究,一直以来,深受认知科学、语言学和人工智能等领域的高度重视。尤其近年来,事件的研究已经成为自然语言理解中的一个热点。目前对事件的研究大多集中在自然语言处理领域的一些面向事件的应用技术,但面向事件的文本表示是这些应用技术的基础,因此人们需要研究面向事件的文本表示方法以支持各种面向事件的文本信息处理应用。本文首先研究事件要素的语言表现和缺省补全,挖掘事件间的语义关系,然后在项目组提出的事件网络文本表示思想的基础上,针对叙事类文本,考虑以事件作为基本语义单元,研究面向事件的文本表示方法——事件网络,并对事件网络的构建理论、方法及其相关应用进行探索。本文主要的研究内容和创新点包括:(1)事件要素的语言表现和缺省补全研究。在CEC语料库的基础上,本文对已标注文本中的事件实例进行深入分析,首先从语料库中抽取事件触发词作为事件特征项,利用哈工大同义词词林,采用半自动的方法对事件特征项进行聚类,得到同类事件触发词表;然后对事件时间、环境和对象要素的语言表现进行研究,发现各事件要素的语言表现规律;最后对标注文本中的事件要素缺省现象进行分析,并定义了基于上下文结构和基于语义关系的启发式规则来实现事件要素的缺省判断和补全,实验取得了较为理想的效果。(2)基于事件共现的事件关系知识挖掘。通过对标注文本中事件间关系的整理和分析,可以从文本中发现事件类之间关系的语义知识。本文首先在共现理论的研究基础上,对文本中的事件共现现象进行了分析,并利用CEC语料库中的5个事件主题类文本集,分别以句子、段落和文本为窗口单元进行事件共现网络的构建;然后将事件共现对的抽取过程看成是事件固定语义关系规则的抽取过程,并利用关联规则的数据挖掘方法从不同窗口单元的事件共现网络中抽取事件共现对,归纳分析后得到事件类之间的语义关系;最后提出了基于事件共现网络的重要事件抽取方法,并通过实验对其效果进行验证。(3)面向事件的文本表示方法研究。本文对传统文本表示模型进行研究,并在项目组提出的事件网络文本表示思想的基础上,发展了事件网络文本表示模型。事件网络是以事件作为节点,事件间关系作为边的图结构模型,根据选取不同的事件间关系,可以构造不同的事件网络。本文研究了两种事件网络:无向事件网络和有向事件网络,并给出了其相关定义和构建方法。无向事件网络利用事件在段落中的相邻关系或事件间存在的相似关系进行构建,不仅可以很好的表示事件的特征信息,还可以表示出事件之间的文本结构信息和语义相似关联信息;有向事件网络则利用事件在句子中的相邻关系或事件间存在的非分类语义关系进行构建,可以直观的让人们了解文本中事件的发生、发展过程,帮助人们实现对文本语义知识的理解。(4)事件网络的运算及其应用研究。本文针对两种事件网络,结合在自动文摘和文本分类两方面信息处理的具体应用,进行了相关运算研究,并通过实验验证事件网络文本表示模型的有效性。首先提出了子事件主题划分算法,用以得到各事件相对其子事件主题社区的主题关联度,并通过与事件权重进行加权计算得到事件的重要度,在此基础上,实现了基于无向事件网络的文本自动文摘;然后根据有向事件网络的特点,提出最大公共子图匹配算法,用以计算有向事件网络间的相似度,并应用于文本自动分类。实验结果表明,基于事件网络的自动文摘和文本分类均取得了较好的效果。