基于深度学习的中文零指代消解研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:lcxlllwho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人们进入“大数据”时代,海量的自然语言信息增加了人们获取有效信息的难度。以计算机技术为基础的自然语言处理应运而生,其融合语言学、数学等学科来处理非结构化的自然语言。中文零指代消解是中文自然语言处理研究中一个基础性问题,影响着机器翻译、信息检索等技术的发展。零指代消解可以分为检测和消解两个子任务。本文基于深度学习技术,分别针对零指代项检测和消解设计了相应的网络模型。零指代项检测是零指代消解整体任务中的第一步,检测能力的强弱直接影响到后续消解的效果。本文将零指代项检测抽象成一个序列标注问题,设计一种基于深度神经网络的零指代项检测模型(Idenfication Zero Pronoun in Chinese with Deep Nerual Networks,IZP-DNN),有效利用深度神经网络能够抽象高层表示的能力,直接从原始文本出发,避免了人工特征提取,有效应对“大数据”挑战;同时,根据零指代项与前后内容相互关联的特征,使用神经网络得到表示上下文信息的特征,避免了对句法树的依赖,有效提高了检测方法的实用性。实验表明,本方法相对于基于传统机器学习的方法在F1值上提升了4.3%,特别是在句法分析树不太准确的情况下,本方法保持了较好的稳定性,较传统的方法在F1值上提升了20.3%。零指代项消解是零指代消解任务的第二步,也是零指代消解的最终目的。本文从语义完整性的角度来建模零指代项消解,利用长短时记忆网络(Long Short-Term Memory,LSTM)能够有效处理时序数据的能力,构建了结合词性特征的多层LSTM零指代项消解模型(Resolution Zero Pronoun Based on Staked LSTM with Prat-of-Speech,RZP-SLP)。通过更加深度的网络,提升模型的抽象能力,提取更加高阶的特征表示,使得消解的效果得到提升;同时,针对零指代现象信息缺失较多,目前神经网络表示能力有限等问题,将词性特征有机的融入,辅助模型更好的提取抽象表示;此外,针对消解对象连续省略造成离零指代距离比较远的现象,通过将前句消解对象加入到候选词中,在一定程度上解决远距离消解的问题。实验表明,本文的模型较基准方法有了一定的提升,特别是对于连续省略造成的远距离消解问题解决效果比较好。在不同的实验条件下,本方法较基准方法在F1值上分别提升了3.0%、3.4%和1.7%。
其他文献
随着科学技术地快速发展和互联网地广泛普及,智能手机凭借着功能众多,用户基数大、使用频率高、应用范围广等特点,已经成为人们日常学习、生活、工作中最重要的辅助工具。手
由于对电子元件的小型化、高性能和低成本的需求,嵌入式无源元件的研究受到了广泛的关注。复合介电材料结合了无机材料和有机材料的优点,具有高介电常数、低损耗和易加工特性,成为嵌入式电容器制备的替代材料之一。本课题以Ag@TiO_2核壳结构为无机填料和聚偏氟乙烯(PVDF)为基体制备复合材料,通过XRD、扫描电镜、红外光谱、热重分析和阻抗分析等,研究影响Ag@TiO_2/PVDF介电性能的因素,探讨提高其
鸭疫里默氏杆菌(Riemerella anatipestifer,RA)是主要感染雏鸭等多种禽类的一种革兰氏阴性病原菌。鸭疫里默氏杆菌具有多种血清型及对多种抗生素药物具有天然抵抗作用,目前对
随着我国市场经济的不断发展,《公司法》规定的公司法人人格独立制度以及股东有限责任制度激发了公司的活力、加速了资源的整合,对新技术的开拓创新起到了一定的积极作用,同
社区是当前新型城市社会的主要组成。伴随着我国城镇化的发展,社区的人员构成也在急速变多。这使得社区警务工作的范围和任务逐步增多,许多社会治安问题也逐渐增多。原来的社
随着这些年国民经济之飞速跨越及百姓生活水平之显著提升,随之而来的我国保险业发展势头迅猛,可谓“芝麻开花节节高”,在这几十年的发展历程里走出了一条立足于本国国情的兴
随着世界经济现代化的发展,能源问题和生态问题日趋严重。对发展绿色、可再生和高效率的能源转换方法以及新的能源储存材料有很高的需求。多孔炭材料由于其高比表面积、优良的热稳定性和高导电性等优点,使其在储能和电化学等领域得到重要的应用。本文采用生物质或其衍生物为碳源、氮源、磷源,冷冻干燥及高温碳化/活化过程,制备了生物质基杂原子掺杂多孔炭材料。生物质基杂原子掺杂多孔炭材料合成过程加入金属盐,制备了金属磷化
研究背景:长久以来,转录起始复合物(PIC)的组装被认为是RNA聚合酶Ⅱ(也叫做PolⅡ或RNAP II)催化的真核生物转录调控的一个限速步骤。然而,近年来的研究表明转录过程在转录延
Ruddlesden-Popper(R-P)结构的类钙钛矿材料相对比普通钙钛矿材料具有相对较低的透氧量,但稳定性优于钙钛矿材料,近年来引起广泛关注。因此本文选取R-P结构的La2Ni04+δ(LNO)
生物特征识别技术是全球用于身份识别方案中使用最广泛的技术之一,经常可以在不同生活场景下的电子设备中见到指纹与指静脉这两种生物特征识别技术的应用。然而,这种依赖单一