融合多策略的中文语义角色标注研究

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:qzx1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以"大数据"与"人工智能"技术为依托的中文信息处理技术得到了普及和应用,中文信息处理领域的相关研究已逐步深入到语句理解层面,而语义角色标注(Semantic Role Labeling)则是句子语义理解的关键环节,在自动问答、机器翻译、篇章理解等领域有着广泛应用。语义角色标注是针对句子序列中指定的词元自动识别并标注出目标词元所对应的语义角色,主要由论元识别和角色分类两个子任务组成。目前,中文语义角色标注研究已取得了较大的进展,但仍有一些问题亟待解决,如:模型自适应性差,特征扩展效率低,标注精度对句法分析依赖较大等等。这些问题导致发展遇到瓶颈,无法满足当前智能信息处理应用需求。以往的研究中,提升语义角色标注性能的主要方法集中于模型选取和特征细化,忽略了单一标注方法的局限性与不同方法间的互补性。因此本文提出了一种融合多策略的中文语义角色标注方法。研究以多策略为切入点,详细介绍了语义角色标注的基础理论、前人提出的三大主流标注方法以及不同策略指导下的标注模型。首先,探讨了基于线性序列策略的中文语义角色标注,构建并训练了基于条件随机场的多特征语义角色标注模型,采用词元-句子多级特征组合的训练方法,初步验证了多级特征的作用域。接着,对比了短语和依存句法策略的语义角色标注特点,提出了结合短语和依存句法的层次树标注策略。模型训练时引入短语-依存双句法特征,根据双句法的层次树模型同时进行识别和分类任务,对比分析了双句法树模型的标注特点。最后,提出了基于深度学习策略的Bi-LSTM语义角色标注的优化模型,在模型后处理层引入最大池化的处理方法。通过对比三大策略的标注特点,发掘策略之间的互补性并引入模块化融合技术,设计了一种分步骤、多策略、模块化的融合标注方法。本方法重点研究了融合模式下语料扩充、特征编排和模块组合,以公开的中文句法标注语料为基础,借鉴宾大中文语料库的标注策略,构建可增删自定义特征的句列语料;特征编排时引入语料自扩展机制进行半自主的双句法特征扩充,灵活地筛选词法、句法等多层次特征,提升标注模型的语义健壮性;在语义角色标注的四项基本处理环节中充分借助三大策略的标注强项,实现多模块的互助组合,完成了一个更为精准、优质的多级语义角色标注优化模型。实验结果表明,分步骤、多策略的模块化融合后,有效提升了标注各步骤的标注性能,与单一策略相比,在剪枝、识别标注和后处理阶段性能大约提升了3.2、1.3、0.2个百分点,总体性能提升约1.5个百分点。
其他文献
随着社会对心理健康领域关注度的逐年增加,人们发现抑郁症成为了一种影响人们心理健康发展的重要心理疾病。抑郁症作为一个重要的流行病,在患病人口性别比例中,女性患有抑郁
黄土高原大规模的退耕还林工程遏制了该地区生态环境的恶化,改善了脆弱和退化的生态系统。但受自然和社会经济条件等多种因子的限制,该区域植被建设还面临诸多挑战。本研究以地处黄土高原水蚀风蚀交错区的陕西吴起约60km2的区域为研究对象,以2000年~2017年为研究时段,分析区域植被恢复状况,引入冗余分析探讨植被覆盖变化驱动力。同时结合野外实地调查数据,分析研究区区内刺槐、油松、山杏、沙棘自 2007年起
随着1978年我国实行改革开放政策之后,经济获得了飞速的发展,人民的生活质量日渐提升。但随着经济快速的发展,一些问题也渐渐显现出来,产业结构不合理就是突出的一点。而物流产业对现代社会经济发展有着先导性和支柱性的作用,对促进产业结构高级化和合理化有着重要的促进作用,对提高经济发展速率也有显著的影响。除物流产业外,技术创新能力的提升对产业结构优化升级也有着重要的作用。目前大多数学者只是针对他们两两之间
日前,中汽协发布的2019年1月汽车产销数据显示,1月我国整体汽车生产和销售均出现了超过10%的同比跌幅。但是,新能源汽车逆势增长,生产和销售同比增幅均超过100%,新能源汽车仍将成
报纸
热声发动机是一种将热能转换为机械能的新型无运动部件热机,因其具有运行可靠、寿命长、环境友好等优点被广泛研究。热声发电是热声发动机的重要应用方向之一,近年来虽已取得
北京市历史文化悠久,拥有丰富的文化遗产和文化资源。西城区作为北京中心城区的一部分,有着三千余年历史和丰富的历史文化遗产。据2016年的数据显示,西城区共有各级文物保护单位363处,约有三分之一不可移动文物建筑存在不合理使用的现象。西城区近些年启动了多处坛庙祠堂、名人故居、老字号等类别的不可移动文物的腾退项目,在政府花费大量人力与物力腾退文物建筑后,如何保护、利用、充分发挥和展示其价值成为亟待解决的