论文部分内容阅读
识别文本中时间关系是深层语义理解的基础,是问答系统、信息抽取和文本摘要等诸多应用的关键。所谓时间关系,就是文本中事件之间、时间之间、事件和时间之间的时序关系。目前,对于时间关系的研究,尤其是中文文本中时间关系的研究尚处于初级阶段。本文主要针对TempEval-2的时间关系识别评测任务展开研究,实验选用了此次会议提供的中文评测语料,并手工标注了短语结构和句法成分标记。本文从时间关系识别任务的具体要求出发,分析了评测语料中时间关系识别时用及的各语言特征,描述了特征提取方法,分析了各特征的有效性,提出了基于最大熵的句内时间关系识别方法、基于规则的事件和文档创建时间之间的时间关系识别方法,并初步探索了相邻句中主要事件之间时间关系识别方法。主要的工作包括以下几个方面:1.参考哈工大的标注规范,标注了评测语料的短语结构和句法成分;2.阐述了时间关系及其识别任务,并详细分析了各识别任务的识别难点;3.研究了自动识别句内时间关系的方法。该任务包括两部分工作:时间实体对自动抽取和时间关系自动识别。时间实体对自动抽取是通过分析事件之间或事件与时间之间的句法成分关系,来确定这一时间关系对是否是文本语义中所蕴含的时间关系对的过程。时间关系自动识别是利用语言特征将时间实体对自动分类的过程;4.用规则的方法自动识别事件和文档创建时间之间时间关系。根据事件是否存在参考时间、相关信号词,将事件分为四类:事件存在参考时间且参考时间为精确时间表达、事件存在参考时间且参考时间为模糊时间表达、事件不存在参考时间但包含相关信号词、事件不存在参考时间且不包含相关信号词。根据事件的不同,制定了不同的识别规则;5.初步探索了相邻句中主要事件之间时间关系识别方法,分析了句内时间关系、事件和文档创建时间之间时间关系对这类时间关系的影响。识别时,首先用最大熵分类方法识别,然后用规则进行修正。