论文部分内容阅读
文本时间关系解析(Temporal Relation Resolution)是自然语言处理领域的一个重要研究内容,主要目的是识别自然语言文本中事件和时间信息及其时间关系,并进行事件时间表达关系之间的研究与分析,其在信息检索系统、问答系统、机器翻译等人工智能领域有着重要的作用。 TimeML(Time Markup Language)是在自然语言文本中标注事件和时间表达的一种规范语言,是为提升自然语言问答系统的处理性能而提出的,现已成为在事件时间表达标记的一种ISO标准规范。基于TimeML标准进行自然语言文本时间关系解析研究是当前自然语言处理领域的前沿课题,在问答系统、机器翻译等基于自然语言理解的多种应用研究中显示出了良好的应用前景。 针对文本进行分析,抽取文本中的事件和时间,建立事件之间的时间关系是对文本内容进行分析和时序挖掘的基础。科技文本多语言化,而且针对英文的时间关系解析研究较为成熟。因此,本文借助英文事件与时间的识别方法,借鉴德语等其他外文的研究经验,采用英汉平行语料,基于TimeML标准进行汉语文本时间关系解析研究。由于英汉语言结构不同导致TimeML五个主要标签中涉及语法结构的属性在英汉对译文本之间不能完全平行实现。针对汉语语言特点,本文对TimeML应用于汉语文本时间关系的标注进行了分析与理解,并借鉴德语、法语研究的经验,利用词对齐的映射方法和技术,构建了汉语事件时间表达关系语料库(Chinese TimeBank)。然后,基于Chinese TimeBank语料库,进行了汉语文本中事件类型之间的时间关系研究与分析。实验结果表明:TimeML可以成功的应用于汉语文本时间关系的标注,但是在汉语文本时间关系解析研究中,针对个别属性(特征)的识别与分析还需要进一步的研究。 本文研究首先将TimeML标准应用于汉语文本时间关系的标注,尝试构建了汉语事件时间表达关系语料库—Chinese TimeBank。然后进行了相应的时间关系解析研究,研究了汉语文本时间关系标注的方法,对中文自然语言处理领域时间关系语料库建设进行了初步探索,对汉语文本处理研究进行了尝试,这正是本文研究的创新之处和技术意义所在。