基于语义匹配的中文零指代消解技术研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:tiantianweb9737l
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文这类代词脱落型语言中,人们为了提高表达的效率经常会省略掉句子中的部分名词代词,然而也使得计算机更难以理解文本。因此,找出这些省略的位置并还原对中文篇章理解有着重要的作用。零指代消解即是解决该问题的主要方法,旨在找到给定文档中的零指代及其先行词。一个优秀的零指代消解系统可以帮助很多自然语言处理任务,比如问答系统、信息抽取、机器翻译等等。现有的方法主要基于零指代和候选先行词的表示,通过计算零指代与候选先行词的语义相似度来选择合适的先行词。然而,由于零指代缺少语法语义信息,难以准确地表示零指代。同时,当前的方法在表示候选先行词时忽略了先行词之间的指代关系。此外,这些方法大多假设零指代位置已知,在实际应用中并不实用。对此,本文主要研究了一种基于句子语义匹配的零指代消解模型以避免直接表示零指代,并且探索了端到端联合零指代和非零指代匹配消解方法,充分利用了全局信息并能同时识别和消解零指代,提高模型的实用性。本文的主要研究内容为:(1)本文提出了一个基于核心偏差句语义匹配的中文零指代消解模型,通过评价候选先行词带入零指代位置给文本带来的影响,依照句子层面的表示做决策,并引入零指代感知标记和对比学习方法以得到更准确的句子表示。(2)本文设计了一个端到端零指代和非零指代联合匹配消解模型,考虑文档中所有的间隙和文本片段,采用间隙掩蔽注意力计算它们的表示,通过表示和分数的深度交互得到识别和语义匹配分数,经过多轮迭代综合融合各分数后决定消解结果。本文在OntoNotes 5.0中文数据集上的实验验证了我们提出的中文零指代消解模型的有效性。
其他文献
国家标准和学校教育注重培养具备学科素养和实践能力的人才,以符合当下社会的需求。教育从以往的知识导向逐渐向素质导向和能力导向发展,注重学生学科核心素养的形成,以培养他们认识世界和改造世界的能力。物理作为自然学科的重要组成部分,对学生认识自然和科学起到重要作用。因而对物理教学进行整体优化设计,促进学生科学本质观的形成就显得尤为重要。格兰特·威金斯和杰伊·麦克泰格提出的逆向教学设计重视单元的整体教学效果
学位
道教经历了约两千年的文化延续,已经形成了庞大繁杂且多元的组织派别、教理教义、道经典籍与思想文化,而“形气”说在构成这些形式、思想与文化的基础内涵中首当其冲,尤其是在宫观的空间环境营造方面表现得尤为明显,从先秦的黄老道至汉末的五斗米道再到当今的全真与正一两大道派,“形气”理论都在其空间形态、营造方法以及环境思想上起着重要的指导作用。本文以道教“形气”理论为基础,首先探索“形”与“气”的成因、作用机制
学位
随着微机电系统的不断发展,隧道磁敏传感应运而生,结合高灵敏隧道磁阻传感可以实现高精度加速度的测量。隧道磁阻加速度计具有体积小、精度高以及可集成化的优点,在惯性导航、汽车工业、重力场检测等领域有着广阔的应用前景。隧道磁阻加速度计是通过力、磁、电多物理场耦合来实现加速度的测量,而温度影响是制约了其性能的关键因素之一;同时对于磁敏传感而言,环境磁场也对加速度的测量影响巨大。因此,探究如何提高隧道磁阻加速
学位
事件抽取是信息抽取领域的重要研究之一,其旨在从文本中高效且精准的提取事件属性的结构化信息,包括事件触发词、事件类型、事件论元及其角色。也因此,事件抽取可以细分成4个子任务,即触发词识别、事件类型分类、论元识别及角色分类任务。其中,前两个任务可以合并称为事件检测任务。本文集中在事件检测任务开展研究,即仅针对触发词识别和事件类型分类任务进行技术探索。依据权威数据集ACE-2005的事件检测任务指南,事
学位
在城镇化高速发展的社会背景下,古村落成为人们了解历史文化、领略历史风情、感受历史风貌的重要载体。早期大量杀鸡取卵式的更新对古村落文化传承造成了难以逆转的破坏,这同时也成为文化传承理念融入古村落保护与更新设计中的契机。本文基于文化传承视角,以建设文化氛围浓厚且独具特色的古村落为设计目标。在尊重场地文化的前提下,注重现代化设计与场地的自然融合,激活场地新旧空间的灵活转化,充分发挥古村落文化效益,为古村
学位
在空间众包任务分配中,为了实现最大化分配任务总数或最大化工人报酬等目标,工人被要求向众包平台发送自身的真实信息。然而其中的隐私信息存在被不可信平台泄露或滥用的风险,因此研究人员提出了许多隐私保护机制,本地化差分隐私是其中被广泛应用的一种方法。然而在一些具有特殊要求的空间众包任务中若直接套用现有的本地化差分隐私机制会造成工人数据可用性降低,任务完成质量大幅下降。针对新型场景下的隐私保护需求,本文基于
学位
硅微轴对称陀螺作为常见的MEMS惯性传感器之一,可分别工作在速率和速率积分两种工作模式用于测量角速率和角度,速率模式具有高精度等特点,速率积分模式具有大量程等特点。如何将速率与速率积分模式的高性能都充分发挥出来,则需要开展两种模式的切换技术研究,同时还要对两种工作模式的性能进一步优化,达到发挥工作模式优势、提升硅微轴对称陀螺性能指标的目的。本文基于轴对称结构中的类蛛网状盘式谐振陀螺,开展了陀螺在预
学位
近年来,深度学习在大量标记样本的支持下取得了巨大成功。但是当标记样本数量不足时,就会出现过拟合现象。另一方面,神经网络容易发生灾难性遗忘,所以它并不能像人类一样做到连续学习。连续学习作为深度学习之后的热点领域,虽然在一定程度上解决了灾难性遗忘问题,但大部分方法是通过手工设计的机制学习归纳偏差,这限制了其发展。元学习不仅可以将连续学习而不遗忘的能力作为元目标优化模型,还可以在样本有限的情况下仅通过几
学位
传统文化反映民族独特的风貌,是各民族的思想文化和思想观念漫长的历史积累,是精神文明的体现。孩子是祖国的未来,是祖国的希望,传统文化教育要从娃娃抓起,通过传统文化与幼儿戏剧教育的创新融合,要把传统文化深深植入幼儿的心灵之中。
期刊
角膜溃疡(Corneal Ulcer)是一种常见的角膜疾病,严重时可能会导致角膜瘢痕、穿孔、视力损伤甚至失明。不及时或者不恰当的治疗措施会导致不可逆转的角膜损伤。基于荧光染色裂隙灯图像的角膜溃疡区域的自动分割可以为临床定量分析与早诊早治奠定基础。由于角膜溃疡图像中存在病灶病理形态与尺度差异大、边界模糊、背景噪声干扰强以及缺少相应分割金标准(即对病灶区域作出标注的图)等问题,基于荧光染色裂隙灯图像的
学位