论文部分内容阅读
近年来,以"大数据"与"人工智能"技术为依托的中文信息处理技术得到了普及和应用,中文信息处理领域的相关研究已逐步深入到语句理解层面,而语义角色标注(Semantic Role Labeling)则是句子语义理解的关键环节,在自动问答、机器翻译、篇章理解等领域有着广泛应用。语义角色标注是针对句子序列中指定的词元自动识别并标注出目标词元所对应的语义角色,主要由论元识别和角色分类两个子任务组成。目前,中文语义角色标注研究已取得了较大的进展,但仍有一些问题亟待解决,如:模型自适应性差,特征扩展效率低,标注精度对句法分析依赖较大等等。这些问题导致发展遇到瓶颈,无法满足当前智能信息处理应用需求。以往的研究中,提升语义角色标注性能的主要方法集中于模型选取和特征细化,忽略了单一标注方法的局限性与不同方法间的互补性。因此本文提出了一种融合多策略的中文语义角色标注方法。研究以多策略为切入点,详细介绍了语义角色标注的基础理论、前人提出的三大主流标注方法以及不同策略指导下的标注模型。首先,探讨了基于线性序列策略的中文语义角色标注,构建并训练了基于条件随机场的多特征语义角色标注模型,采用词元-句子多级特征组合的训练方法,初步验证了多级特征的作用域。接着,对比了短语和依存句法策略的语义角色标注特点,提出了结合短语和依存句法的层次树标注策略。模型训练时引入短语-依存双句法特征,根据双句法的层次树模型同时进行识别和分类任务,对比分析了双句法树模型的标注特点。最后,提出了基于深度学习策略的Bi-LSTM语义角色标注的优化模型,在模型后处理层引入最大池化的处理方法。通过对比三大策略的标注特点,发掘策略之间的互补性并引入模块化融合技术,设计了一种分步骤、多策略、模块化的融合标注方法。本方法重点研究了融合模式下语料扩充、特征编排和模块组合,以公开的中文句法标注语料为基础,借鉴宾大中文语料库的标注策略,构建可增删自定义特征的句列语料;特征编排时引入语料自扩展机制进行半自主的双句法特征扩充,灵活地筛选词法、句法等多层次特征,提升标注模型的语义健壮性;在语义角色标注的四项基本处理环节中充分借助三大策略的标注强项,实现多模块的互助组合,完成了一个更为精准、优质的多级语义角色标注优化模型。实验结果表明,分步骤、多策略的模块化融合后,有效提升了标注各步骤的标注性能,与单一策略相比,在剪枝、识别标注和后处理阶段性能大约提升了3.2、1.3、0.2个百分点,总体性能提升约1.5个百分点。