论文部分内容阅读
近年来,得益于深度学习技术的发展,依存句法分析在精度和效率上均取得了很大的进步。目前依存句法分析面临的主要挑战是领域移植问题,即当测试文本和训练数据文本在风格、类型、主题上差异较大时,分析准确率会显著下降。尤其是互联网上用户生成内容(User Generated Content)的比例越来越大,这些数据与规范新闻文本差异很大,句法分析的准确率非常低,严重阻碍了句法分析技术在实际系统中的应用。由于缺乏较大规模的多领域标注数据,现有的依存句法分析领域移植工作多集中在无监督方法的研究,即训练数据中不包括目标领域(测试文本所属领域)标注数据,无监督领域移植非常困难,多年来进展缓慢。本文在训练时使用源领域和目标领域标注数据,重点研究半监督依存句法分析领域移植方法。首先,构建了一个大规模多领域汉语开放依存句法树库;进而,基于该树库,提出并比较了几种半监督领域移植方法;最后,探讨了如何利用大规模的无标注数据提升领域移植性能。(1)汉语依存句法数据标注规范制定以及树库构建构建依存句法树库需要依存句法数据标注规范作为理论基础。现有的依存句法数据标注规范仅考虑到通用文本的标注,对非规范文本中的一些语言现象却覆盖较少。因此,本文首先制定了一个覆盖不同语言现象的汉语依存句法数据标注规范,以指导树库构建工作。在构建树库时,为了控制数据的标注质量,本文制定了严格的双人标注流程,并从准确率、一致性两方面详细分析标注完成的数据,及时改进标注工作中存在的不足。另外,为了节省数据标注成本,同时保证树库的质量,本文采取了局部标注方法,仅选取句子中标注难度最高的一部分词语进行人工标注。我们将该树库命名为汉语开放依存句法树库(Chinese Open Dependency Treebank,CODT),日前的树库覆盖了 11个领域的文本,共包含约13万个句子。(2)基于领域嵌入的依存句法分析领域移植本文基于构建的汉语开放依存句法树库,重点研究半监督领域移植方法。半监督方法的关键任务是如何充分从源领域与目标领域训练数据中提取特征。本文提出了领域嵌入方法,该方法为每个输入词语添加了额外的领域信息,使模型既可以学习两个领域的通用特征,同时又可以区分领域之间的差异。进一步,本文将所提领域嵌入方法应用到多源依存句法领域移植分析问题,即额外利用其它目标领域的训练数据提升特定目标领域的分析性能。实验结果表明:1)本文提出的领域嵌入方法比其他基准方法更有效;2)当目标领域与特定源领域之间的差异较小时,增加该源领域的数据可以提高模型性能,反之则会对模型产生干扰。此外,由于源领域与目标领域的训练数据规模差异较大,本文在实验过程中使用了语料库加权策略。在每次迭代时,控制源领域与目标领域训练数据的比例,防止目标领域被源领域淹没。实验结果表明,选择不同的训练数据比例对分析性能影响较大。(3)基于语言模型微调的依存句法分析领域移植上一章内容仅通过标注数据研究半监督领域移植方法,但由于数据标注工作非常复杂且成本较高,如何利用大规模无标注数据也是领域移植研究的重要方向之一。近年来,上下文相关语言模型迅速发展,已经帮助了很多数据驱动的自然语言处理任务。本文通过直接训练和微调上下文相关语言模型(ELMo和BERT)从大规模无标注数据中提取特征,实验结果表明:1)利用通用ELMo和BERT模型可以帮助依存句法分析领域移植性能取得大幅度的提升;2)与传统的通过自训练方法使用无标注数据相比,利用ELMo、BERT从大规模无标注数据中提取特征更加有效。我们在分析实验结果时发现不同的目标领域训练数据规模对模型分析性能有较大的影响,本文通过实验讨论了在领域移植工作中,使用多少目标领域训练数据最为合适,对以后的数据标注和领域移植工作均有借鉴意义。另外,为了将构建的汉语开放依存句法树库提供给更多的研究者使用,我们举办了依存句法分析领域移植评测。本文汇报了参赛者的实验结果,并总结了参赛者使用的实验方法。综上,本文首先构建了一个高质量的汉语依存句法树库,进而,基于该树库,研究半监督依存句法分析领域移植方法。我们希望这些初步的成果能够为依存句法分析领域移植任务的发展提供帮助。