基于词向量和LSTM的汉语零指代消解研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lsssyd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语零指代消解任务是自然语言处理领域一个重要的研究分支和研究热点,对于帮助计算机理解自然语言文本有着重要的作用。汉语零指代消解是找到汉语句子中的零指代位置所指向的先行词。传统的汉语零指代消解方法利用句子的完全句法树,通过利用词法、句法信息等来进行零指代消解,很少从语义层面进行研究。随着深度学习技术的发展,词向量作为一种语义的载体被广泛地研究和应用,同时像循环神经网络(Recurrent neural network,RNN)、长短期记忆模型(Long short-term memory,LSTM)等模型和技术也广泛地应用在自然言处理各项任务上,并取得了很好的效果。本课题提出了使用词向量和LSTM模型用于汉语零指代消解任务,分别提出了基于词向量的汉语零指代消解框架和基于LSTM的汉语零指代消解模型。利用词向量这种语义载体,从语义层面对汉语零指代消解任务进行建模和实验,取得了良好的效果,证明了利用词向量和深度神经网络模型在汉语零指代消解任务上的有效性,提供了一种汉语零指代消解的新思路。我们构建了基于词向量的线性分类框架进行汉语零指代消解任务,具体的包括关键词的提取策略,定义样本格式、训练词向量和构建线性二元分类模型等;同时为了对词向量信息和上下文信息更加有效的利用和建模,我们提出了基于双向LSTM的模型,包括构造适合汉语零指代消解任务的网络结构,对embedding的特殊处理以及各种优化方法等。实验证明本课题提出的这些方法能够有效的利用语义信息,在语义层面解决汉语零指代消解问题,与传统方法相比有着更好的效果,弥补了传统方法的不足。
其他文献
三维场景模型构建技术在三维地理信息系统的开发的应用前景十分广泛,如构建城市交通调度系统、地质灾害的定位、数字地图等领域,相比于二维地理信息系统不仅能给人以直观的、
图像纹理的方向性度量是近年来国内外一个比较热门的研究领域,在图像处理、图像检索、计算机视觉、模式识别及计算机图形学等众多领域中都发挥着非常重要的作用,有着广阔的应
作为一种新型的具有宽带无线网络架构的网络,无线MESH网是由移动Ad Hoc网络发展而来,具有自组织和自愈等特性。由于WMN在灵活组网、提高网络覆盖率、增加网络容量、减少前期
基因表达数据中隐藏着许多的基因功能和基因调控网络信息,数据挖掘可以帮助生物学家快速发现这些有价值的信息。基因表达数据中的频繁闭合模式的挖掘是其中一种重要的挖掘方
传统的方法已经很难适应当前股票数据预测的时间序列分析问题。因为在进行预测之前,一般认为不需要严格的、精确的数学模型。同时,在这种预测分析中一个合理的时间序列描述往
随着计算机及信息科技的发展,V2X(V2V与V2I)网络技术已经成为智能交通系统中一个重要的组成部分。然而很多V2X网络技术的应用,例如:行车安全距离警报系统,基于位置的信息服务
随着图像编辑软件的高速发展,数字图象输入、输出设备的发展和普及,用户实现图像伪造趋于简单化并使伪造的图像达到较高的逼真度,从而影响我们对其真实性的判定。在现在,伪造
随着Web服务数量的不断增长,如何将这些服务组合起来以完成更加复杂的任务已经成为目前研究的重点。目前存在的服务组合工具都过于复杂,需要很强的专业知识,研究如何降低服务
随着智能化、网络化等技术的日益成熟,具有潜在巨大应用价值的无线传感器网络(Wireless Sensor Networks)引起人们的重视与研究。无线通信技术、微电子技术以及计算机技术的
Java体系结构包括四个相互关联的技术:Java语言、Java API、class文件和Java虚拟机,其中Java虚拟机是整个体系的核心部分,它使Java程序在不同的计算机系统之间具备高度的可移