基于多数据源的成分句法分析研究

来源 :东北大学 | 被引量 : 3次 | 上传用户:goer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
成分句法分析(又被称作短语结构句法分析)是自然语言处理的核心任务之一,被广泛应用于包括机器翻译、问答系统在内的多种自然语言处理任务。由于人工标注句法数据(在句法分析领域,这类数据的集合通常被称作树库)的出现,数据驱动的句法分析方法成为当前句法分析研究的主流方法。通常来说,训练数据越充分,句法分析器获得的句法分析性能越好。为了利用尽可能多的训练数据构建句法分析系统,本文研究基于多数据源的成分句法分析。本文主要考虑两种扩展训练数据的来源。其一为异构树库,由不同研究单位遵循不同标注规范所构建的句法树库。异构树库由于标注规范的差异所以不能直接合并使用。但是为了充分利用已经存在的人工标注数据,有必要研究如何能够应用异构树库。其二,本文也研究了半监督句法分析,特别关注如何利用无标注数据改进移进-归约句法分析。相对于异构树库而言,无标注数据更加容易获得而且数据规模更大,因此研究如何利用无标注数据进行句法分析具有更加现实的意义。本文的主要研究内容包括以下四个方面:本文提出了基于启发式解码的树库转换方法。该方法被分别应用于句法树中的词性转换和句法结构转换。应用该方法进行树库转换时只需要修改词性标注器和句法分析器的解码过程。首先,在目标树库上构建词性标注器(句法分析器),然后应用得到的词性标注器(句法分析器)对源树库中的句子进行词性标注(句法分析),并且在分析过程中引入源树库中的原有标注作为解码的指导信息。基于启发式解码的树库转换方法可以将源树库中的标注信息作用于整个解码过程,因而获得更好的性能。最终转换精度达到84.2%。本文提出了基于特征的树库转换方法。与基于启发式解码的方法相比,基于特征的转换方法并不将源树库中的标注作为解码时的硬约束,而是将其作为特征引入到词性标注器和句法分析器中。首先,在源树库上构建词性标注器(句法分析器)并且应用该词性标注器(句法分析器)对目标树库中的句子进行词性标注(句法分析)。如此,目标树库中的句子同时具有两种(遵循不同规范的)标注。在这个新数据上构建用于转换的词性标注器(句法分析器)对源树库进行转换。最终的转换精度达到84.8%。本文提出了基于协同解码的异构树库句法分析方法。树库转换是间接利用异构树库的方法,而协同解码属于直接利用异构树库的方法。协同解码方法首先在每一个异构树库上分别构建句法分析器,然后应用得到的多个句法分析器对测试数据进行句法分析。在分析过程中,句法分析器参照彼此的分析结果,使句法分析器的分析结果尽可能达成结构上的一致。协同解码方法在两个实验数据上分别获得0.5%和0.7%的性能提高。本文研究了半监督移进-归约句法分析,利用无标注数据改进词性标注器和移进-归约句法分析器。本文方法首先利用集成句法分析器对大规模无标注数据进行句法分析,然后从得到的自动分析树中抽取词性部分作为额外的训练数据构建词性标注器。这样得到的词性标注器可以生成更有利于句法分析的词性标注结果。另外从集成句法分析器生成的自动分析树中抽取词汇依存关系,并且在依存关系的基础上设计新的特征改进移进-归约句法分析器。最终将词性标注和句法分析两方面的工作结合在一起,可以得到目前最好的移进-归约成分句法分析结果。在英文和中文上的性能分别达到90.9%和82.2%。基于本文的技术,我们成功开发了多套性能优异的成分句法分析系统并且在机器翻译和语义角色标注等任务上得到了实际应用。
其他文献
为研究饲料中添加杆菌肽锌对断奶仔猪的增重效果,选择90头断奶仔猪随机均分为试验组A、试验组B和对照组C,在试验组A饲料中添加杆菌肽锌10mg/kg,试验组B饲料中添加杆菌肽锌30m
音乐艺术是一门综合的艺术,它包容万千、蕴涵丰富,凝结了人类美好且丰富的情感。情感体验无疑是我们欣赏音乐、理解音乐的一把钥匙。情感体验在普通高中音乐欣赏课中亦起着重
在新时期开放创新背景下,作为自然科学类传统实验室——地质类实验室,我们应重新审视其精细化、全局化、定量化的学科特点,努力将高校创新创业的主要载体——实验室,建设成具
<正>文化创造美好,美好需要文化。内蒙古实施"数字文化走进蒙古包"工程,惠及农牧民10万余人;安徽"农民文化乐园"根据群众意愿,统一采购文艺演出送到村;浙江建成农村文化礼堂3
新媒体的发展将是未来媒体发展的新趋势,新媒体和公益相结合,为新媒体的发展注入新的发展形式。通过公益新媒体工作室的运营,从网站主页趋于读图为主的页面呈现、微信公众订
图像作为一种直观、便捷的反映现实世界的媒介,被广泛应用于多媒体、数字医疗、人工智能等领域。在众多的实际应用中,人们需要清晰、高质量的图像,因此去除图像噪声、提高图
指针分析是一种静态程序分析技术,它的目标是静态确定一个指针变量能够指向哪些地址(变量或函数的存储位置),也就是静态确定一个指针变量在程序运行时所有可能的值。指针分析
为提高烤烟的物理和经济性状,通过大田试验研究了磷酸二氢钾不同施用量(15kg/hm~2、30kg/hm~2、45kg/hm~2)对烤烟产质量的影响。结果表明,磷酸二氢钾根外喷施,能明显提高烤烟
近年来,人力资源服务企业得到了较快的发展,但人力资源服务企业业务同质化问题较为突出。在对常州人力资源服务产业园入驻企业调查的基础上,本文分析了人力资源服务企业业务