基于分析动作建模的汉语依存句法分析研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:Taurus_God
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理的重要任务之一。在机器翻译、自动问答、信息提取等应用系统中,句法分析能够为各系统提供句子结构上的信息。简单说来,句法分析是将一个句子映射到其句法树的过程。句法树可采用多种形式表示,其中短语结构的句法分析是传统的研究方向。在最近十多年,依存句法以其简单明了的表示形式、快速高效的分析算法越来越受到广泛关注,并且应用到了很多自然语言处理任务中。   中文信息处理在过去的二十年中,在汉字编码、自动分词以及命名实体识别等浅层分析方面已经取得了可喜的研究成果,为了对中文进行更为深层的、智能化的处理,句法分析是一项不可或缺的核心技术。本文研究汉语依存句法分析技术,主要工作及创新点包括:   (1)在统一的数据集合、数据切分和评价指标下,针对汉语依存分析问题,对各种代表性的依存句法分析方法进行了对比实验。这些代表性的方法包括基于决策的方法和基于动态规划的方法。实验发现,基于决策的方法更适合于汉语依存句法分析。基于决策的依存分析方法模仿人类的认知模型,从左至右分析句子,对词间关系作出决策,并动态地建立这种关系。这种方法可以利用丰富的局部特征对分析动作做出决策,突破了基于动态规划方法中关于依存对之间独立性假设的限制,在汉语依存句法分析任务中显示了潜力。   (2)基于决策的依存分析方法本身是一种贪婪决策的方法。为了克服这种贪婪性,本文提出了概率化决策动作模型。该模型融合了决策式方法和动态规划方法的优点,既可以利用丰富的上下文特征,又从全局最优的视角进行分析,对决策动作进行概率建模。在这个思想指导下,针对无标记依存分析任务,提出了动作链模型和动作短语模型;针对有标记依存分析任务,提出了扩展动作模型、联合动作短语模型和分离模型。在这些模型中,均存在一个对整体依存树进行打分的机制,以避免传统的基于决策的分析方法的贪婪性。从实验结果来看,概率化决策动作模型在以上两个任务中均优于传统的基于决策的分析方法,提升了汉语的依存句法分析的性能。其中,对于无标记依存分析任务,动作短语模型优于动作链模型;对于有标记依存分析任务,联合动作短语模型取得了最好的性能。   (3)汉语中存在一些特有的句法结构,对于这些结构,依存分析的动作很难判断。对这些特有结构进行针对性的处理,会提升汉语依存句法分析的性能。针对这个问题,本文提出了n阶段模型。该模型主要分为两大类:n阶段的决策式动作模型、短距离依存与长距离依存分治模型。二者均按照特有结构将依存分析过程拆分为n个阶段,将难于判断的依存关系留待后续的阶段予以解决。前一阶段的依存分析会构建出一个相对更清晰的上下文环境,从而使得当前阶段更容易对一些依存关系做出判断。从实验结果来看,n阶段模型提升了传统决策式依存分析方法的性能,避免了传统决策式依存分析方法的贪婪性,其中以短距离依存与长距离依存分治模型的性能为最优。   (4)为了分析和验证动作建模方法在多语言依存分析上的性能,我们参加了第十一届计算自然语言学习会议(CoNLL-2007)的“多语言依存分析”共享任务的的评测。该共享任务包括10种语言的依存句法分析。评测结果显示,动作建模方法在所有10种语言上均可取得优于传统决策式方法的性能,表明该方法可以方便地扩展到多种语言的依存分析任务中。通过对评测数据进行分析也发现,长距离依存关系在各种语言中都是最难判断的依存关系,如何判断长距离依存关系是开发独立于语种的依存句法分析器的关键问题。   (5)除了依存句法分析之外,动作建模方法也可以应用于语块分析等任务中。本文基于动作建模方法,从结构预测角度进行语块分析的研究。传统方法把语块分析看作是一个序列标注任务,由于受限于马尔可夫假设,只能考虑相邻标记的特征,对于较长语块则无法同时考虑语块边界的相互联系,而这种边界的检测在语块分析中是十分重要的。本文从结构预测的角度进行语块分析,通过建立语块中的中心词和其子节点的依存结构,使得某些长距离依存可以得到分析。具体的结构预测方法使用了基于动作建模的分析方法。实验结果显示,结构预测的方法可以改善长语块的分析性能,而且对语块分析的整体性能而言,基于动作建模的方法优于传统的决策式的方法。
其他文献
进入21世纪,世界航天活动呈现出蓬勃发展的新态势,主要航天国家对地球、太阳和月球及其他天体开展了或正在计划开展一系列的空间探测与观测活动。在制定新的空间政策和任务计
基于图像的自由曲面三维形状重构方法(Shape from Shading,简称SFS)是一种重要的非接触曲面测量手段,具有无损、全场、快速等优点,近年来成为基于视觉的曲面测量研究领域的热
滚转飞行器在飞行中绕纵轴旋转,能克服气动外形的不对称、质量偏心等引起的落点误差,在国内外弹箭上得到了广泛的应用。现代军事领域中,对滚转飞行器的制导要求不断提高,因此需要
磨矿过程是选矿厂生产全流程过程中的重要环节,该过程好坏直接关系到选矿厂的精矿品位和金属回收率等重要生产指标。因此,提高磨矿过程的自动控制水平对于降低选矿总成本及提
入侵检测技术作为动态安全防护系统最核心的技术之一,在网络安全保障体系中起着极为重要的作用。但是由于网络攻击行为的不断加剧和攻击手段的不断升级,使得现有的网络入侵检测
发射筒的调平和起竖技术可以保证导弹发射的稳定性和精确性。以往的导弹发射车大都采用手动调平,操作费力,调平时间长,满足不了导弹武器系统快速反应的要求。本课题在理论研究的
CAN现场总线作为一种能有效支持分布式控制和实时控制的技术,以其稳定性好、可靠性高、抗干扰能力强、通讯速率高、维护成本低等特点越来越受到人们的重视。随着现场总线技术
由于严峻的公共安全形势,智能视觉监控越来越受到重视。步态识别能够从远距离识别出人的身份,对提高监控系统的智能性至关重要。步态识别的难点之一是步态特征作为一种行为特征
本文的研究主要是围绕反舰巡航导弹的气动力/推力矢量的建模、制导、航迹规划及目标检测与识别等关键问题来展开,实现巡航导弹精确打击目标。 第一部分对反舰巡航导弹气动
智能交通信号控制系统是智能交通系统的重要组成部分,将在社会经济发展中发挥重要的作用。图像处理及模糊控制技术在智能交通信号控制系统中的应用研究,是智能交通系统的前沿研