基于知识库的自然语言问答方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:tokyo55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于知识库的自然语言问答指的是针对以自然语言形式给出的问题,利用结构化的知识库给出答案,它是自然语言处理的重要研究方向之一。知识库问答的主要方法可以分为基于信息提取的方法、基于语义解析的方法和基于向量空间建模的方法三类,其中的关键技术包括知识的抽取和表示、用户问句的语义表征和基于知识库的答案生成等。受到问句语义表征准确性、问答对训练数据规模等因素的影响,现阶段知识库问答系统的性能仍有待提升。此外,开源的大规模开放领域中文知识库较为缺乏,这也制约了面向中文的知识库问答技术的研究开展。本文围绕基于知识库的自然语言问答任务,从问句语义表征、训练数据准备和中文知识库构建等多个方面开展研究工作,主要研究内容包括面向知识库问答中复述问句评分的词向量构建方法、结合神经网络问句生成的知识库问答方法以及中文知识库构建中的知识融合方法。传统词向量通过与具体任务无关的无监督训练方法得到,用于知识库问答中的复述问句评分时无法体现句子级的语义约束关系。因此,本文提出了一种基于复述知识约束的词向量训练方法。该方法在词向量训练过程中引入句子级的语义约束信息,在不改变句子语义合成方法的前提下,通过优化单词层面的语义向量,来改善句子层面的语义表征,最后达到提升复述问句评分以及知识库问答系统回答问题的准确度的效果。现有基于向量空间建模的知识库问答方法依赖训练数据,而人工生成大规模的问答对数据较为困难。本章针对以上问题将基于编码器-解码器神经网络模型的问句生成方法引入知识库问答系统构建,通过构建问句生成模型实现由知识库中三元组自动生成问句,用于知识库问答的模型训练。实验结果表明使用模型生成问句相对传统模版生成问句,有效改善了知识库问答系统的准确率。最后,本论文介绍一种基于知识融合的中文知识库构建方法。该方法首先从百度百科网页的信息框中抽取信息构建初始知识库,然后采用基于链接词信息的实体对齐和基于Jaccard系数的属性映射方法,实现初始知识库与现有Freebase知识库的融合。通过构建人物、地理等部分领域的中文知识库,验证了以上方法在已有本体库基础上实现知识库扩充的有效性。
其他文献
随着移动通信技术的飞速发展,数据业务需求飞速增长。超密集网络通过部署更加密集的小基站,可以使系统获得更高的频谱复用效率,从而提高系统容量。但在超密集网络中基站的覆
和谐社会背景下,图书馆与公共文化服务的融合使用对于构建我国和谐的生态文化起着重要的促进作用.图书馆与公共文化服务统一使用既能够促进图书馆资源利用的最大化,促进图书
可重构技术是当今信息处理领域研究的热点之一,其应用己经从电子信息处理领域拓展到了许多行业。在敏捷制造技术、重构生产系统、飞行器的重构设计等方面都显示出了重构技术
随着手持式摄影设备的迅速发展和普及,图像和视频的获取越来越方便。与此同时,用户对于图像的画面质量要求日渐提高。低分辨率视频在高分辨率屏幕下清晰播放,就需要采用信号
随着科学技术的发展,二十一世纪,人类已经进入信息时代,这对于我市图书馆服务工作带来了新的挑战.在新形势下,图书馆的服务对象、服务方式、服务功能等均发生了巨大变化,以往
无线多媒体传感器网络(WMSNs)作为无线传感器网络(WSNs)的一种特殊应用,深刻的改变了人与世界的交互方式,成为连接物理世界、数字虚拟世界和人类社会的桥梁;在国家安全、空间
在多媒体技术与网络通信技术快速发展的今天,人们可以通过互联网极其便利地获取高清的图片与视频信息。多媒体数据的传输对CPU和网络的压力也越来越大,同时网络的传播也带来
档案建设是新时期高职院校发展的重要内容和措施,对于高职院校自身建设有着十分重要的作用.在新时期这一工作受到高度重视,在发展的过程中采取了一系列措施和方法去对其进行
自基于盲源分离的加密技术提出以来,该盲加密理论的性能评价也成了学者们关注的焦点,本文旨在对两种典型的盲加密技术进行传统的信噪比评价,并且提出一种只针对图像本身的奇
随着信息化时代的到来和信息化建设逐步推进,公共图书馆领域也在悄然的发生着变化.图书馆本来是了解文化增长知识的重要场所,有着安静惬意的阅览环境、适宜良好的阅读氛围,方