融合多种谓词信息的语义角色标注方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:drake0266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义角色标注是一种自然语言处理领域的浅层语义分析技术。它以句子为单位,分析句子中的谓词与其相关成分之间的语义关系,进而获取句子所表达语义的浅层表示。由于语义角色标注可以提供较为简洁、准确、有益的分析结果,因此近年来受到了学术界的普遍重视,并已经成功地应用到信息抽取、自动问答、机器翻译等任务中。  在具体的实现中,语义角色标注以句子中的谓词为核心,分析句子中的其它成分与谓词之间的相互关系,因此谓词在句子的语义表达中处于核心的支配地位,其它成分均为谓词服务。但在现有的大多数研究工作中,谓词的作用仅仅体现在论元分类时作为一种特征,这显然与谓词在谓词—论元结构中的支配地位相悖。因此,本文的研究工作主要围绕如何深入挖掘谓词信息来改善现有的语义角色标注系统展开,本文重点关注了三种谓词信息:谓词先验信息、多谓词信息和双语谓词互补信息。为合理利用这三种信息,本文提出了以下方法:  1.全局的语义角色标注生成式模型  句子中的谓词与它的语义角色组成了一个统一的整体,相互之间存在着紧密的联系。然而现有的语义角色标注系统却忽视谓词和语义角色之间的联系,每个候选论元的标注过程均独立进行,导致谓词与论元之间的关系也被割裂开来。但是,谓词既有一定的共性,比如对每个谓词来讲核心论元均不重复出现,又有自己独有的特性,比如谓词“销往”总是伴随一个地点论元,这些现象表明了谓词与语义角色之间的紧密联系。本文把这些联系看作是谓词的先验信息,合理地利用谓词的先验信息有利于提升语义角色标注系统的性能。为融入谓词的先验信息,本文用一个新颖的概念来表达谓词和论元之间的联系,并在此基础上提出了一种全局的语义角色标注生成式模型进行求解。实验结果表明,该方法可以有效地处理谓词与论元之间的联系,充分挖掘谓词本身的特性,使得语义角色标注系统的性能有显著的提升。  2.基于判别式重排序的多谓词语义角色标注方法  现有的语义角色标注系统在分析一个句子时,依次独立地分析每个谓词,即给定句子中的一个谓词,识别出它的论元,然后对它所有的论元完成分类,之后再分析下一个谓词。可以看出该过程每次只关注句子中某个谓词的语义角色标注,却忽略了句中各个谓词之间的相互关系。而且一个句子中包含多个谓词的现象在日常中是普遍存在的。根据统计,在中文命题库中超过80%的句子包含两个或两个以上的谓词。这些谓词位于同一个句子中,联合起来表达了句子的完整语义,那么它们的语义角色标注结果应具有一定的联系。本文分别调查了多谓词现象对于论元识别和论元分类的影响。具体地,在论元识别阶段,融入了与谓词相关的特征,可以有效地减少论元识别错误;在论元分类阶段,对于多谓词共享论元的分类本文提出了一种判别式重排序的方法,由于该方法充分考虑了多谓词和共享论元的全局信息,因而显著提升了共享论元分类的效果。  3.基于对偶分解的双语语义角色标注方法  由于机器翻译等跨语言任务需要对双语平行语料进行语义分析,所以本文对双语语义角色标注问题进行了研究。因为双语平行句对是互为翻译的,所以它们应具有等价的语义。语义的一致性反映在语义角色标注上是双语谓词应具有一致的谓词—论元结构。如果只利用单语语义角色标注系统对平行句对进行分析,会完全忽略双语语义的一致性。而且,双语谓词的谓词—论元结构一旦不一致的话,表明其中一个必然是错误的结果,这启发我们可以利用另一端的信息来改进这种错误情况。因此,本文认为双语谓词的语义角色标注之间存在广泛的互补信息。为了合理利用双语谓词的互补信息,本文提出了基于对偶分解的双语语义角色标注方法。实验表明,该方法可以显著提升双语语义角色标注的效果,并且效率较高。  综上所述,谓词在谓词—论元结构中处于核心地位,而现有的语义角色标注方法仅仅把谓词作为一种分类特征看待,明显与谓词的核心地位不符。因此本论文深入研究了如何利用谓词信息来改善现有的语义角色标注系统。具体地,本文分别研究了谓词先验信息、多谓词信息和双语谓词互补信息等三种谓词信息对于语义角色标注的帮助。实验表明,合理地利用这些谓词信息可以显著地提升语义角色标注的系统性能。
其他文献
容延容断网络(Delay/Disruption Tolerant Networks,DTN)是一种间歇性连接的无线网络。在这类网络中,通讯节点分布不均匀,通讯状态起伏很大,网络拓扑结构很不稳定,从而导致整个通
随着社会信息化程度越来越高,计算机处理的数据规模越来越大,而且数据的结构通常也具有很强的随机性。如何为这样的研究对象设计高效的算法,如何研究它们的动态演化方式,已成为新
学位
著名的OTIS网络(也叫Swapped网络)和最近出现的Biswapped网络均可用来构建大规模并行分布式系统的互连网络。Biswapped网络可以看做是OTIS网络的一种扩张,因而这两种网络呈现
语音是人类交流最常用的方式,而能让计算机听懂人所说的话一直是人类的理想之一,语音识别技术的出现,使人类的这一理想得已实现。近二十年来,语音识别技术取得显著进步,开始从实验
云计算是一种新兴的商业计算模式,是目前国内外商业和科研机构研究的热点之一,它融合了网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化和负载均衡等传统计算机和
当前很多需要处理的大数据每天都在不断演变更新,总会有新的数据不断出现,加入现有的数据集合。因为部分数据增加或变化导致重新处理全部的数据,让之前所有的工作失去了意义,
在粗糙集的众多应用中,属性约简是最核心的内容之一。所谓属性约简是在保持信息系统分类能力不变的前提下,删除冗余的属性。属性约简大大简化了数据库结构的复杂度,提高了人们对
微光图像通常是指在照度小于0.1勒克斯(lux)的环境下获取的图像。微光图像因其在夜间等低照度条件灵敏的成像能力,已经在军事侦察、公安反恐、航天遥感、安防监控等重要领域发
药物协同是指不同药物相互合作以增强疗效的一种相互作用关系,在药物研发领域内具有重要的研究价值。癌症、艾滋病等复杂疾病通常由多种因素导致,涉及到多个生物环节的异常或改