中文零指代消解方法研究与实现

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:malongqingse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
零指代是一种特殊的语言现象,是指为了保证语言的连贯性而省略的并且可以通过上下文推断出的语言单元。该省略的语言单元在句子中承担相应的句法成分,并且可以和前文中一个或者多个名词短语等语言单元构成指代关系。由于汉语自身的语言特性,使得零指代现象在中文中非常常见。因此,中文零指代消解对于中文自然语言理解十分重要,是中文自然语言处理重要的基础任务之一,对句法分析、语义角色标注、机器阅读理解、机器翻译等其他下游任务都有着非常重要的作用。中文零指代消解通常可以分为两个子任务,一是零代词的识别,二是零代词的消解。本文利用神经网络的方法针对这两个子任务分别展开研究,并且最终采用联合模型将其组合以提高系统的性能。本文的主要工作包含以下三个方面:(1)基于深度学习的中文零代词识别模型。本文提出了一种基于深度神经网络的零代词识别方法,利用注意力机制去捕获句子中的语义信息,对句子中蕴含语义信息更多的词语分配更高的权重,同时利用Tree-LSTM去挖掘句法结构信息,最后通过两者的融合特征识别零代词。实验结果表明,本文提出的方法能够有效提升中文零代词的识别效果。(2)基于Bert网络和双仿射机制的中文零代词消解模型。本文采用Bert网络代替传统的LSTM特征编码层,获取信息更为准确丰富的特征表示。在对候选先行词进行表示时,利用自注意力机制对候选先行词的全局信息进行建模。最后,通过双仿射机制进行消解分类。实验结果表明,Bert网络能够充分提取文本中的特征信息,并且通过双仿射机制能够更好的学习零代词和候选先行词之间的交互信息进行消解分类,本文提出的模型有效提升了消解效果。(3)基于Bert网络的端到端联合中文零指代消解模型。本文首先基于之前所做识别和消解中文零代词的工作,实现了一个pipeline式的中文零指代消解基准模型。考虑到这种流水线的方式会造成错误级联问题,并且忽略了识别和消解零代词过程中相关性。因此利用Bert网络作为特征抽取层,并采用联合学习的方式进行完整的中文零指代消解。实验结果表明,本文提出的端到端的联合模型有效改善了管道式模型的缺点,提升了中文零指代任务的消解效果。
其他文献
目的:探索非小细胞肺癌患者肿瘤组织中PD-L1、CD8~+T细胞、p53蛋白表达是否具有统计学相关性,及PD-L1、CD8~+T细胞、p53蛋白分别与疗效的关系,探讨p53是否可作为免疫治疗的新
目的:研究黄连素(berberine,BBR)对幽门螺杆菌(Helicobater pylori,H.pylori)多重耐药(multi-drug resistant,MDR)菌株对抗菌药物敏感性的影响,探讨黄连素在Acr AB-Tol C外排泵基因调控中的作用,为阐明黄连有效成分黄连素对H.pylori MDR菌株耐药性的影响及其作用机制提供实验依据。方法:第一部分:胃镜下采集胃粘膜标本,体外分
为探索研究酸汤微生态制剂对断奶仔猪断奶应激及肠道微生物的影响,试验选用健康、31日龄,体重5.34(±0.86kg)的断奶仔猪54头,随机分为6组,每组3个重复,每个重复3头。试验Ⅰ组为对照组,饲喂基础日粮,试验Ⅱ、Ⅲ、Ⅳ、Ⅴ组分别在对照组的基础上添加0.5%、1%、1.5%、2%的酸汤,试验Ⅵ组在对照组的基础上添加0.1%复合益生菌,进行为期47 d的饲养试验,其中预试期7 d,正试期40 d。
涉县地处河北省邯郸市西部的太行山区,东风湖泉域位于河北省涉县与山西黎城县交界,东风湖的泉流量在人工开采逐年增加、大气降水逐年减少的影响下,总体上呈现出逐年减少的趋势。由于涉县天津铁厂等工业和人类活动影响导致了地下水中化学组分含量改变从而使水化学场发生变化等一系列生态环境问题。因此开展研究泉域地下水化学演化规律,对涉县东风湖泉域的地下水规划、地下水环境、和社会经济发展有着重要的意义。本论文通过Pip
食品安全的风险预警对于及时发现食品安全隐患具有很重要的意义。由于食品安全风险发生存在随机性和突发性,即食品会因为时间、地点等信息存在突发情况,所以我国一直以来都提倡“工商监管、经营者自律、消费者参与、社会监督”四位一体的长效监管体系。在此基础上,本文主要对食品在流通环节进行了风险预警的方法研究,主要工作如下:分析食品流通环节中可以辅助进行食品风险预警的数据来源主体,提出了基于微博舆情数据、新闻媒体
《普通高中数学课程标准(2017年版)》(下文简称“新课标”),对教材、教法、教学评价等方面产生了强有力的影响。自2018年秋天起新课标正式实施,学科核心素养成为高中数学教育的出发点和落脚点。直观想象,作为六大学科核心素养之一,在数学学科核心素养体系中具有重要的地位。它是问题解决过程中的必要手段,对建构抽象的数学结构、探索论证思路、展开数学推理都具有关键作用。历时一年有余,为了切实地掌握高中生的直
随着我国医改进入深水区,国家对疾病控制、卫生监督等公共卫生服务的投入力度加大,尤其是对基层医疗的政府拨款增多,越来越重视基层医疗机构建设,以期提升基层医疗机构的诊治水平和诊治量。2009年《中共中央国务院关于深化医药卫生体制改革的意见》提出推进医药分离,取消15%药品加成,实行药品零差率销售,这一政策导致基层医疗机构医药收入减少,支出却有增无减,收支不平衡,加上内外部环境的变化,财务风险将不可避免
随着城市轨道交通在我国各大城市迅速发展,其引发的环境振动噪声问题也越来越明显,轨道交通给人们带来了方便的同时,也给人们日常生活和工作也带来了很大的影响。因此,地铁运行引起的建筑结构振动噪声问题也迫切需要得到解决。目前,尽管已有一些研究人员用有限元法对地铁引起的低频振动噪声问题做了一些研究,但是计算效率和计算精度仍存在一定的局限性,分析的频段范围大多仅限于10~200Hz。本文基于混合法理论和声学基
目的:运用数据挖掘数据技术对名老中医治疗腰椎间盘突出症的用药经验进行分析研究,总结用药规律,传承其学术思想,为中医药治疗本病提供临床依据。方法:纳入门诊就诊的腰椎间盘突出症患者569例,并通过EXCEL表格将收集的临床资料汇总,包括患者的基本信息和处方内容,继而应用SPSS Statistics20、SPSS Modeler14.2对药物进行数据挖掘,分析关联药对,得出用药组合规律。最后在中医理论
随着经济的快速发展,岛内居民生活水平的大幅提高,物质消费呈多样化发展。海口作为海南省重要的行政、文化、旅游中心,承担着大量岛内外游客涌入,生活垃圾产生量逐年增大,垃圾成分越来越复杂,垃圾处理工作面临的挑战日益严峻。开展生活垃圾分类,减少垃圾处置量、实现减量化、资源化利用,已成为当务之急和必然趋势。然而,海口市城市生活垃圾分类刚刚起步,垃圾分类工作面临着各种问题。本文以海口市城市生活垃圾分类为研究对