论文部分内容阅读
随着互联网技术的迅猛发展以及用户规模的爆炸式增长,网络上涌现了大量的文本数据。从海量的自然文本数据中自动、快速、有效地提取出有用的知识已成为人们的迫切需求。计算机应用程序和系统也依赖特定的“知识”来完成特定的功能,例如互联网搜索、自动导航、自动问答、机器翻译、语音识别等系统的应用都离不开知识库的支持。实体关系抽取是构建知识库的关键技术之一,其目的在于从自然语言文本中提取出命名实体之间所存在的语义关系。实体关系抽取已经成为数据挖掘、机器学习、人工智能以及自然语言处理等领域的研究热点;同时具有重大的应用价值和广阔的应用前景,也已成为工业界关注的焦点。已有实体关系抽取的研究主要集中于英语语料库,而对中文实体关系抽取的研究较少,虽然取得了一些可喜的成果,但其准确率和召回率都还有待进一步提高。因此,本文主要关注于中文实体关系抽取研究。一方面,网络中文文本中存在大量句式结构复杂的长句,句中经常包含多个实体信息,由此构成的实体对数量也较多;实体类型的数量分布不均匀。这些文本数据特点给中文显式关系抽取任务带来了巨大的挑战。已有基于特征的关系抽取方法对于中文复杂长句,不能有效地提取到真正表示实体关系类型的特征,从而降低了显式关系抽取性能。以旅游领域为例,中文显式关系抽取研究中存在的不足具体表现在:(1)已有基于特征的方法经常将依存句法关系特征用于显式关系抽取,通常只是单独无序地使用两个实体的依存句法关系特征,无法真正表示出该实体对在句中对应的句法结构,导致该特征在关系抽取中的作用不明显,从而影响显式关系抽取性能。(2)在显式关系抽取中,经典的动词特征研究一般都选择距离位置较后实体最近的动词作为依赖动词特征。由于跨长距离的实体对所在句子中通常会包含多个动词,而经典的动词特征研究并非都能有效提取到真正表征该实体对关系类型的动词,因此会影响实体关系类型的判别,导致显式关系抽取的准确率下降。此外,经典的动词特征研究并非都能有效地帮助实体之间有无关系的探测以及关系类型的区分,有时甚至会带来大量噪音,特别是在关系探测上该问题尤为突出。另一方面,中文文本中蕴含着大量种类繁多的隐式关系。与显式关系相比,隐式关系由于缺少支持具体关系类型的直接证据,通常需要借助句子内容层面的语义关联性,结合相关语言学信息、具体的上下文语义信息以及相关领域知识进行间接推理。然而,语义关系的歧义性、句子结构的复杂性、上下文信息的不确定性及数据不平衡等问题,使得隐式关系抽取任务更复杂、推理难度也更大,而且还无法采用通用的模型来实现。中文隐式关系抽取研究的难点表现在:(1)由于中文和英文的语言特点存在巨大的差异性,针对英语的隐式关系抽取方法不能直接应用于中文隐式关系抽取上。因此,中文隐式关系抽取的研究是关系抽取的重点和难点。(2)中文句型复杂多样,不同的句型结构中隐含着许多不同类型的实体关系,导致借助额外知识进行隐式关系抽取的方法也有所不同,无法采用通用的方法来实现。因此,需要对句子结构和上下文进行深入分析和理解,从而构建更多更精细的隐式关系抽取模型。针对上述问题,本文主要关注于中文显式关系和隐式关系抽取,研究的主要内容包括:(1)基于句法语义特征的中文显式关系抽取本文从句法和语义角度获取三个有效表达实体关系类型的特征,提出了基于句法语义特征的中文显式关系抽取方法,有助于提升显式关系抽取的性能。具体特征包括:①依存句法关系组合特征。按照两个实体出现的先后顺序,将两个实体各自的依存句法关系进行有序组合,得到依存句法关系组合特征。该特征具有一定的区分度,可以较好地反映出相应实体之间的关系类型特征。②最近句法依赖动词特征。结合句型结构特点,从语义角度提出了最近句法依赖动词特征,其目标是通过依存句法分析和词性来提取一个句子中两个实体的最近句法依赖动词特征。由于存在直接语义关联和间接语义关联的两个实体之间的依存路径有所不同,通过对依存路径进行分析提出了最近句法依赖动词特征获取算法。③趋向核心动词特征。对于包含“到、来、去”等趋向动词的句子,最近句法依赖动词特征也不能有效表征实体之间真正的关系类型,影响了显式关系抽取性能。在最近句法依赖动词特征基础上,进一步提出了趋向核心动词特征。(2)基于协陪义动词的中文隐式关系抽取由于旅游和新闻领域文本包含许多由协陪义动词引发的隐式关系,本文试图以协陪义动词为核心,根据句子结构和上下文的理解构建基于协陪义动词的隐式关系抽取推理规则,将显式关系抽取和隐式关系抽取相结合,利用显式关系对隐式关系进行推理,充分发挥各自的优势,致力解决旅游和新闻领域中基于协陪义动词的中文隐式关系抽取问题。具体研究内容有:①协陪义候选句的筛选。采用多种方法构建协陪义动词词表,利用协陪义动词词表对数据集中包含协陪义动词的句子进行筛选。② 协陪义候选句型判断。根据协陪义动词在句中充当的不同成分,利用依存句法分析,对协陪义候选句型进行判断,并进行句型分类。③协陪义成分识别。由于协陪义动词在不同句型中充当的成分不同,导致对参与协陪义动作的实体进行成分识别的方法也有所不同。进一步利用依存句法分析,针对五种协陪义句型分别设计了不同的协陪义成分识别算法。④隐式关系推理规则的构建。根据利用的额外知识与协陪义动词是否处于同一句子中,提出了两类隐式关系推理方法——句内基于协陪义动词的隐式关系推理方法和句间基于协陪义动词的隐式关系推理方法。根据协陪义成分和协陪义动词作用范围的特点,设计了三种句内基于协陪义动词的隐式关系推理规则。利用协陪义句中零形回指的先行词,建立不同句子中协陪义动词的主体成分与客体成分之间的联系,实现句间基于协陪义动词的隐式关系抽取。借助显式关系对隐式关系进行推理,将规则与机器学习的方法相结合,有效解决了基于协陪义动词的中文隐式关系抽取问题,从而更准确地发现更多的实体关系,提升了中文关系抽取的整体性能。本文的主要创新性工作体现在:(1)从语义角度提出最近句法依赖动词特征和趋向核心动词特征。最近句法依赖动词特征能较好地表征实体关系类型,有利于具体关系类型的识别,而且较好地解决数据分布不均衡带来的问题,能够显著提升中文显式关系抽取性能。趋向核心动词特征进一步提高了动词特征对中文显式关系抽取性能的影响。(2)提出句内基于协陪义动词的隐式关系推理规则。设计了协陪义候选句型分类算法以及相应的协陪义成分识别算法;构建了三种句内基于协陪义动词的隐式关系推理规则,有效解决句内基于协陪义动词的中文隐式关系抽取问题。(3)提出句间基于协陪义动词的隐式关系推理规则。从零形回指的角度,提出了句间基于协陪义动词的隐式关系推理规则,有效解决句间基于协陪义动词的中文隐式关系抽取问题。