论文部分内容阅读
句法分析是自然语言处理的重要任务之一。在机器翻译、自动问答、信息提取等应用系统中,句法分析能够为各系统提供句子结构上的信息。简单说来,句法分析是将一个句子映射到其句法树的过程。句法树可采用多种形式表示,其中短语结构的句法分析是传统的研究方向。在最近十多年,依存句法以其简单明了的表示形式、快速高效的分析算法越来越受到广泛关注,并且应用到了很多自然语言处理任务中。
中文信息处理在过去的二十年中,在汉字编码、自动分词以及命名实体识别等浅层分析方面已经取得了可喜的研究成果,为了对中文进行更为深层的、智能化的处理,句法分析是一项不可或缺的核心技术。本文研究汉语依存句法分析技术,主要工作及创新点包括:
(1)在统一的数据集合、数据切分和评价指标下,针对汉语依存分析问题,对各种代表性的依存句法分析方法进行了对比实验。这些代表性的方法包括基于决策的方法和基于动态规划的方法。实验发现,基于决策的方法更适合于汉语依存句法分析。基于决策的依存分析方法模仿人类的认知模型,从左至右分析句子,对词间关系作出决策,并动态地建立这种关系。这种方法可以利用丰富的局部特征对分析动作做出决策,突破了基于动态规划方法中关于依存对之间独立性假设的限制,在汉语依存句法分析任务中显示了潜力。
(2)基于决策的依存分析方法本身是一种贪婪决策的方法。为了克服这种贪婪性,本文提出了概率化决策动作模型。该模型融合了决策式方法和动态规划方法的优点,既可以利用丰富的上下文特征,又从全局最优的视角进行分析,对决策动作进行概率建模。在这个思想指导下,针对无标记依存分析任务,提出了动作链模型和动作短语模型;针对有标记依存分析任务,提出了扩展动作模型、联合动作短语模型和分离模型。在这些模型中,均存在一个对整体依存树进行打分的机制,以避免传统的基于决策的分析方法的贪婪性。从实验结果来看,概率化决策动作模型在以上两个任务中均优于传统的基于决策的分析方法,提升了汉语的依存句法分析的性能。其中,对于无标记依存分析任务,动作短语模型优于动作链模型;对于有标记依存分析任务,联合动作短语模型取得了最好的性能。
(3)汉语中存在一些特有的句法结构,对于这些结构,依存分析的动作很难判断。对这些特有结构进行针对性的处理,会提升汉语依存句法分析的性能。针对这个问题,本文提出了n阶段模型。该模型主要分为两大类:n阶段的决策式动作模型、短距离依存与长距离依存分治模型。二者均按照特有结构将依存分析过程拆分为n个阶段,将难于判断的依存关系留待后续的阶段予以解决。前一阶段的依存分析会构建出一个相对更清晰的上下文环境,从而使得当前阶段更容易对一些依存关系做出判断。从实验结果来看,n阶段模型提升了传统决策式依存分析方法的性能,避免了传统决策式依存分析方法的贪婪性,其中以短距离依存与长距离依存分治模型的性能为最优。
(4)为了分析和验证动作建模方法在多语言依存分析上的性能,我们参加了第十一届计算自然语言学习会议(CoNLL-2007)的“多语言依存分析”共享任务的的评测。该共享任务包括10种语言的依存句法分析。评测结果显示,动作建模方法在所有10种语言上均可取得优于传统决策式方法的性能,表明该方法可以方便地扩展到多种语言的依存分析任务中。通过对评测数据进行分析也发现,长距离依存关系在各种语言中都是最难判断的依存关系,如何判断长距离依存关系是开发独立于语种的依存句法分析器的关键问题。
(5)除了依存句法分析之外,动作建模方法也可以应用于语块分析等任务中。本文基于动作建模方法,从结构预测角度进行语块分析的研究。传统方法把语块分析看作是一个序列标注任务,由于受限于马尔可夫假设,只能考虑相邻标记的特征,对于较长语块则无法同时考虑语块边界的相互联系,而这种边界的检测在语块分析中是十分重要的。本文从结构预测的角度进行语块分析,通过建立语块中的中心词和其子节点的依存结构,使得某些长距离依存可以得到分析。具体的结构预测方法使用了基于动作建模的分析方法。实验结果显示,结构预测的方法可以改善长语块的分析性能,而且对语块分析的整体性能而言,基于动作建模的方法优于传统的决策式的方法。