中文代词消解关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sxsdlyq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指代和省略是自然语言中广泛存在的语言现象,会造成语句的歧义问题,给自然语言理解带来了极大的困难,尤其是在聊天机器人等多轮对话的应用场景下。指代消解具有较长的研究历史,从早期的手工规则等理论方法研究到后来大规模语料中计算机自动处理技术的衍生,再到目前多种机器学习方法的引入,指代消解系统的性能在不断的提高。但由于对自然语言中语义的理解和表示方法仍然不够成熟,深层次的语言知识和语义特征的使用还较为简单,因此没有对词、句、篇章多层级的不同特点进行足够深入的挖掘,也没有对上下文信息进行有效的利用。本文旨在完善和提高多轮对话场景下的上下文理解,主要对中文代词消解及省略恢复任务中的关键技术进行研究,特别是在聊天机器人系统中的使用。主要内容包含如下几个方面:(1)本文提出了多特征融合的中文代词消解算法,引入了经验向量化特征、语义角色标注特征和词向量等多种类型的特征从多个角度来刻画表述对的语义、结构等多层次的特点。本文具体阐述了基于表述对模型的中文代词消解整体算法框架的构建与实现,在此基础上,探讨了多种类特征在该任务上的不同表现,提出并对比了几种特征融合方法的有效性,并在向量拼接方法的基础上验证了不同分类器参数、词向量维度、分类器阈值等对实验结果的影响,据此得到的最佳的实验结果。(2)本文将深度学习技术引入代词消解任务中。具体的,使用适宜序列化输入的长短时记忆网络模型学习表述对上下文的深层特征表示,分别将其应用于中文代词消解及省略恢复任务中。本文提出了一种基于双向循环网络的中文零代词识别算法,尝试归纳和总结了零代词识别任务中存在的问题,提出相应的规则优化方案。本文还研究了不同网络结构的深度学习模型在中文代词省略恢复任务中的表现,通过对比试验得到较优的模型和参数配置。(3)本文实现了基于微信平台得智能聊天机器人系统,详细介绍系统的总体结构、模块设计和系统展示,并对代词消解和省略恢复模块进行说明。在实践中探讨了中文代词消解技术和代词省略恢复技术在智能机器人系统中的有效性,并对语义补全任务做出了针对性分析和优化。
其他文献
在软件系统的开发过程中通常会产生了大量结构复杂、语义丰富的数据,而建立个灵活的语义模型是对各类软件工程数据进行统一管理的基础。在管理大量软件工程数据的过程中,如何
随着信息技术和网络的普遍应用,如何更好地保障信息的安全已引起研究人员的广泛关注。信息的安全保密,通常采用的是加密的方式,而加密技术的核心是密钥的保密。秘密共享就是
面向方面编程范式通过引入方面实现横切关注点的分离和封装,很好的解决了代码纠结和代码分散等面向对象程序所面临的难题,使系统易于实现和扩展,同时提升了软件的模块性和可
近年来,随着城市化进程的迅速发展,“数字城市”的建设应运而生。在“数字城市”建设的过程中,是以“数字社区”的建设为基础的,而创建“数字社区”的关键是通过三维建模技术
近年来,计算机视觉技术在农产品检测方面得到了广泛的应用,使得现代农业更具规模性和专业化。本文所研究的内容是柑橘图像分割的具体算法设计。它是课题“柑橘表面破损自动检
在计算机图形学领域,人们逐渐利用计算机来再现周围的真实世界,自然现象的建模和渲染是近几十年来计算机虚拟现实与系统仿真的一个重要研究领域,基于物理模型的流体模拟近年
随着人工智能的迅速发展,理解人类语言并能够与人类对话,给出相应的信息反馈的机器人成为了大多数人的需求。在这样的背景下,智能聊天机器人慢慢走入人们的视野。在这股机器
随着社会的发展,经济的突飞猛进,为了促进社会和谐,地震灾变的预测也就越来越重要了。现代计算机技术的迅猛发展,包括地震灾变预测等越来越多的工程计算问题都依靠于大型高性
随着互联网的迅速发展,社交网络信息预测成为信息内容管理的重要研究内容之一。此前的社交网络信息预测研究中,对社交网络中信息表示与量化计算研究不足,难以有效的支撑社交
实时渲染是虚拟现实的重要内容之一。它要求以人眼能够接受的刷新速度(至少24fp/s以上)对虚拟现实场景进行实时绘制。因此,实时渲染对交互性、实时性和场景真实度都有很高的要