汉语文本中的时间关系识别技术研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:ancci
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
识别文本中时间关系是深层语义理解的基础,是问答系统、信息抽取和文本摘要等诸多应用的关键。所谓时间关系,就是文本中事件之间、时间之间、事件和时间之间的时序关系。目前,对于时间关系的研究,尤其是中文文本中时间关系的研究尚处于初级阶段。本文主要针对TempEval-2的时间关系识别评测任务展开研究,实验选用了此次会议提供的中文评测语料,并手工标注了短语结构和句法成分标记。本文从时间关系识别任务的具体要求出发,分析了评测语料中时间关系识别时用及的各语言特征,描述了特征提取方法,分析了各特征的有效性,提出了基于最大熵的句内时间关系识别方法、基于规则的事件和文档创建时间之间的时间关系识别方法,并初步探索了相邻句中主要事件之间时间关系识别方法。主要的工作包括以下几个方面:1.参考哈工大的标注规范,标注了评测语料的短语结构和句法成分;2.阐述了时间关系及其识别任务,并详细分析了各识别任务的识别难点;3.研究了自动识别句内时间关系的方法。该任务包括两部分工作:时间实体对自动抽取和时间关系自动识别。时间实体对自动抽取是通过分析事件之间或事件与时间之间的句法成分关系,来确定这一时间关系对是否是文本语义中所蕴含的时间关系对的过程。时间关系自动识别是利用语言特征将时间实体对自动分类的过程;4.用规则的方法自动识别事件和文档创建时间之间时间关系。根据事件是否存在参考时间、相关信号词,将事件分为四类:事件存在参考时间且参考时间为精确时间表达、事件存在参考时间且参考时间为模糊时间表达、事件不存在参考时间但包含相关信号词、事件不存在参考时间且不包含相关信号词。根据事件的不同,制定了不同的识别规则;5.初步探索了相邻句中主要事件之间时间关系识别方法,分析了句内时间关系、事件和文档创建时间之间时间关系对这类时间关系的影响。识别时,首先用最大熵分类方法识别,然后用规则进行修正。
其他文献
近年来,随着无线通信技术、定位技术和智能移动终端的快速发展,基于位置信息的服务(Location-Based Services, LBS)在医疗、物流、交通、军事等诸多领域得到了广泛应用,它能
以Web技术为代表的Internet极大促进了人类知识的传播和文化交流,改变着人类的生产和生活方式。然而,目前作为建立在标准格式化语言上的Web,并不具有良好的语义表示能力,这给基于
移动Agent(MA)是一个独立的计算机程序,它可以自主的在异构网络上按照一定的规程流动,寻找合适的计算资源、信息资源或软件资源,从而利用与这些资源同处一台主机或网络的优势,处
论文阐述了供应链管理的基本概念和理论,对供应链管理下的供应商与制造商之间关系的变化进行了深入的剖析,强调了与战略性供应商建立战略合作关系的必要性.论文对战略供应商
电信管理网(TMN)技术是目前国际上流行的电信网络管理技术。它是一个具有体系结构的数据网,既有数据采集系统,又包括这些数据的处理系统,可以提供一系列的管理功能,并在各种类型
随着电子技术和通信技术的发展,不同的终端显示设备、不同的通信网络状况、不同消费用户的需求都对视频编码提出了多元化的要求,随之产生的问题是如何在一次编码过程中形成视频
伴随着Internet网络规模的不断扩大,多媒体技术的飞速发展,人们对网络服务的要求也不断提高。而目前的“尽力而为”(IPv4)的方式已越来越难以满足人们的需要。因此可以在新一代
信息系统领域传统的数据库技术是以单一的数据资源为中心,主要进行事务处理的操作型数据处理工作,对于决策分析等分析性工作的功能是有限的,只能提供预先定义好的简单的统计
本课题的研究重点就是在基于无线网络的警务移动办公业务这一新的应用领域中,如何区分登录用户身份的真假、如何保证对登录用户的访问控制,防止越权操作、内部信息以及个人隐
离散小波变换(Discrete Wavelet Transform)因其良好的多分辨率分析特性和时频域局部特性,被广泛地应用于信号分析、图像编码压缩、模式识别以及机器视觉等各领域。目前已有的