论文部分内容阅读
指代和省略是自然语言中广泛存在的语言现象,会造成语句的歧义问题,给自然语言理解带来了极大的困难,尤其是在聊天机器人等多轮对话的应用场景下。指代消解具有较长的研究历史,从早期的手工规则等理论方法研究到后来大规模语料中计算机自动处理技术的衍生,再到目前多种机器学习方法的引入,指代消解系统的性能在不断的提高。但由于对自然语言中语义的理解和表示方法仍然不够成熟,深层次的语言知识和语义特征的使用还较为简单,因此没有对词、句、篇章多层级的不同特点进行足够深入的挖掘,也没有对上下文信息进行有效的利用。本文旨在完善和提高多轮对话场景下的上下文理解,主要对中文代词消解及省略恢复任务中的关键技术进行研究,特别是在聊天机器人系统中的使用。主要内容包含如下几个方面:(1)本文提出了多特征融合的中文代词消解算法,引入了经验向量化特征、语义角色标注特征和词向量等多种类型的特征从多个角度来刻画表述对的语义、结构等多层次的特点。本文具体阐述了基于表述对模型的中文代词消解整体算法框架的构建与实现,在此基础上,探讨了多种类特征在该任务上的不同表现,提出并对比了几种特征融合方法的有效性,并在向量拼接方法的基础上验证了不同分类器参数、词向量维度、分类器阈值等对实验结果的影响,据此得到的最佳的实验结果。(2)本文将深度学习技术引入代词消解任务中。具体的,使用适宜序列化输入的长短时记忆网络模型学习表述对上下文的深层特征表示,分别将其应用于中文代词消解及省略恢复任务中。本文提出了一种基于双向循环网络的中文零代词识别算法,尝试归纳和总结了零代词识别任务中存在的问题,提出相应的规则优化方案。本文还研究了不同网络结构的深度学习模型在中文代词省略恢复任务中的表现,通过对比试验得到较优的模型和参数配置。(3)本文实现了基于微信平台得智能聊天机器人系统,详细介绍系统的总体结构、模块设计和系统展示,并对代词消解和省略恢复模块进行说明。在实践中探讨了中文代词消解技术和代词省略恢复技术在智能机器人系统中的有效性,并对语义补全任务做出了针对性分析和优化。