论文部分内容阅读
近年来,随着人们进入“大数据”时代,海量的自然语言信息增加了人们获取有效信息的难度。以计算机技术为基础的自然语言处理应运而生,其融合语言学、数学等学科来处理非结构化的自然语言。中文零指代消解是中文自然语言处理研究中一个基础性问题,影响着机器翻译、信息检索等技术的发展。零指代消解可以分为检测和消解两个子任务。本文基于深度学习技术,分别针对零指代项检测和消解设计了相应的网络模型。零指代项检测是零指代消解整体任务中的第一步,检测能力的强弱直接影响到后续消解的效果。本文将零指代项检测抽象成一个序列标注问题,设计一种基于深度神经网络的零指代项检测模型(Idenfication Zero Pronoun in Chinese with Deep Nerual Networks,IZP-DNN),有效利用深度神经网络能够抽象高层表示的能力,直接从原始文本出发,避免了人工特征提取,有效应对“大数据”挑战;同时,根据零指代项与前后内容相互关联的特征,使用神经网络得到表示上下文信息的特征,避免了对句法树的依赖,有效提高了检测方法的实用性。实验表明,本方法相对于基于传统机器学习的方法在F1值上提升了4.3%,特别是在句法分析树不太准确的情况下,本方法保持了较好的稳定性,较传统的方法在F1值上提升了20.3%。零指代项消解是零指代消解任务的第二步,也是零指代消解的最终目的。本文从语义完整性的角度来建模零指代项消解,利用长短时记忆网络(Long Short-Term Memory,LSTM)能够有效处理时序数据的能力,构建了结合词性特征的多层LSTM零指代项消解模型(Resolution Zero Pronoun Based on Staked LSTM with Prat-of-Speech,RZP-SLP)。通过更加深度的网络,提升模型的抽象能力,提取更加高阶的特征表示,使得消解的效果得到提升;同时,针对零指代现象信息缺失较多,目前神经网络表示能力有限等问题,将词性特征有机的融入,辅助模型更好的提取抽象表示;此外,针对消解对象连续省略造成离零指代距离比较远的现象,通过将前句消解对象加入到候选词中,在一定程度上解决远距离消解的问题。实验表明,本文的模型较基准方法有了一定的提升,特别是对于连续省略造成的远距离消解问题解决效果比较好。在不同的实验条件下,本方法较基准方法在F1值上分别提升了3.0%、3.4%和1.7%。