面向汉语知识库问答的语义解析方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:qzspk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识库是一种计算机系统存储复杂的结构化和非结构化信息的技术。现实生活中大量的知识被存储在结构化的知识库中,如知识图谱和表格数据库。语义解析是一项将自然语言的表述映射为逻辑形式(如SQL查询)的任务。对自然语言问句进行精准、深入的语义解析,是提升知识库问答准确率的有效途径。语义解析技术有两种形式。一种是将自然语言问句与逻辑语句中的信息进行语义匹配,并选择匹配度最高的结果作为答案的抽取式方法。另一种是将自然语言问句转换成某种显式的结构化语句,并执行该语句直接获得答案的生成式方法。本文针对图谱和表格两类知识库,结合各自的特点,分别探索了两种形式的语义解析方法。首先,针对知识图谱问答任务,由于知识图谱规模庞大,导致查询语句语句搜索空间非常大。基于抽取式方法,我们比较了两种路径剪枝的方法,并引入了一种更有效的训练方法。进而,针对表格问答任务,针对新提出的汉语数据集DuSQL,我们对当时最先进的面向英文数据集的生成式方法模型进行了拓展。最后,面对语义解析任务中标注数据稀疏的问题,我们提出了一种层次化的数据增广方法。本文的研究内容如下:(1)面向汉语图谱知识库问答的抽取式语义解析给定自然语言问句,知识图谱问答的目标是根据知识图谱中大量的三元组知识,生成包含三元组信息的查询语句并检索答案。简单问句通常利用一个三元组知识即可回答,而复杂问句通常需要利用多个三元组构成的路径信息。我们针对基于间接匹配的语义解析方法,即通过匹配问句信息和候选路径获取答案,做了三点尝试:首先针对知识图谱规模庞大、复杂问句对应候选路径数量爆炸的问题,我们比较了两种路径剪枝的方法,即基于分类的方法和基于集束搜索的方法。第二,我们引入一种负例动态采样的方法训练语义匹配模型,缓解了测试集中存在大量未见的实体和关系的问题,提高了模型性能。最后,我们设计了多个特征对使用不同路径剪枝方法的系统进行融合,进一步提升了整个知识图谱问答系统的性能。(2)面向汉语表格知识库问答的生成式语义解析表格是另一种知识结构化存储的形式,若干个相互关联的表格通常被存储在关系型数据库当中。面向表格知识库问答的语义解析将问句转化为包含表格结构的SQL语句。前人的工作大多关注英文数据集。本文面向新构建的汉语表格问答数据集DuSQL,对当时最先进的IRNet方法进行拓展,提出了 IRNetExt方法,以适应其特有的计算类问题,并支持值预测。实验结果表明,IRNetExt显著提升了计算类和值预测问题的语义解析性能。(3)面向汉语表格知识库问答语义解析的数据增广语义解析数据集的标注难度大、成本高,普遍存在着标注数据稀疏的问题。我们针对表格问答任务提出了一种简单有效的基于层次化问句生成的数据增广框架,以解决测试集数据库与训练集数据库不同带来的跨领域问题。首先,给定目标数据库,基于抽象语法树生成SQL语句。进而,不是通过Seq2Seq方法直接将SQL语句翻译成自然语言问句,而是采取先将SQL子句翻译成自然语言子句然后再组合的方式,产生更高质量的问句。我们在三个中英文数据集上进行了实验。结果表明,基于层次化问句生成的数据增广方法更加有效地提升了基准模型的性能;同时,对增广数据进行采样的训练策略比直接混合和预训练语义解析模型的训练策略更加有效。综上所述,我们对面向汉语结构化知识库问答的语义解析进行了较深入的研究,涵盖了知识图谱问答的抽取式方法和表格问答中文本到SQL语句的生成式方法。我们衷心希望本文的工作可以对未来的知识库问答研究有所帮助。
其他文献
战斗部在高能炸药爆炸作用下,形成大量高速破片,这些破片通过侵彻、射流等方式毁伤目标。通过对战斗部破片进行检测与跟踪,获取破片飞行状态和飞行参数,为战斗部毁伤威力提供重要参数依据。由于战斗部破片具有速度高、尺寸小、数量多等特点,以及靶场试验环境复杂多样,一般的图像处理方法满足不了高速摄影中破片图像处理与测量的需求。因此,研究基于深度学习的破片群目标检测与跟踪具有重要的工程应用价值。论文的主要研究内容
学位
复述识别任务,旨在判断两个自然文本是否表达相同的语义,是自然语言处理中的一项基础任务,解决该任务的关键是正确理解句子的语义以及判断出两个句子之间的关系。目前,复述识别方法主要基于深度神经网络模型,该类方法将复述识别任务视为一个二元分类任务,并取得了很大进展。但现有方法在问句复述识别任务中以及在特定领域的复述识别任务中还存在不足之处,如存在信息缺失导致的语义理解与交互不充分问题。因此,本文针对以上科
学位
城市体检作为贯彻落实中央城市工作会议精神的新型城市治理方式,已成为监测“城市病”、推动高质量发展的重要举措。目前,地级市层面的城市体检评估方法与实践研究已有较多,针对中小城市特别是县城的探讨较为缺乏。文章以江苏省金湖县为例,从中小城市发展面临的问题出发,深入研究中小城市响应城市体检的工作思路与规划应对策略,探索建立多领域综合、多主体协同、多维度应对、多特色呈现的工作机制,为中小城市治理提供技术方法
期刊
学位
目标跟踪算法是机器视觉领域的一个分支,在智能监控、智能交通等领域得到广泛应用。基于深度学习的目标跟踪算法相较于传统的目标跟踪算法在精度方面更具优势。但是,基于深度学习的目标跟踪算法通常伴随着大量的数据计算,而随着移动设备的普及,目标跟踪技术的应用场景则开始向体型小、方便移动的方向发展,这便限制了那些只能依靠大型计算机的算力才能达到较高精度算法的使用。因此,研究出一种既能保持较高准确度又能适用于小型
学位
随着互联网技术和电子商务的蓬勃发展,各种应用平台上涌现出许多带有主观情感的文本,正确分析这些文本中的情感倾向有助于实现多种智能服务应用,例如,舆情监控、企业征信、个性化推荐等。因此,情感分析受到了越来越多研究者的关注。本文研究的属性级情感分类是情感分析领域中一项细粒度的任务,旨在识别文本中针对某个具体属性的情感极性。现有的属性级情感分类方法大多依赖于标注样本,然而样本标注工作费时耗力。而且,相对于
学位
为了解西藏岗巴县不同草地类型盛草期牧草品质与土壤理化性质关系,在每块草地中沿对角线方法布设6个间距为10 m,大小为0.5 m×0.5 m的样方,采集样方中所有的高山嵩草(Carex parvula)和青藏苔草(Carex moorcroftii Falc.)、披碱草(Elymus dahuricus)、针茅(Stipa capillata)和羊茅(Festuca ovina),并在每个采集过植物
期刊
随着互联网和移动通信技术的迅猛发展,无结构化数据呈现爆发式增长。事件检测已经成为快速获取与管理数据的重要技术之一,旨在从无结构化的数据中检测事件触发词。目前,大部分事件检测方法基于句子级信息展开研究,缺少对篇章级信息的利用,导致无法有效检测出依赖于篇章级信息的事件触发词。因此,本文针对篇章级信息在事件检测任务中的应用进行了深入的研究。具体研究内容分为以下三个方面:(1)针对句子与其上下文关联问题及
学位
报纸
分布式系统的广泛应用解决了集中式系统的处理和存储瓶颈。随着数据量的爆炸式增长,分布式节点间进行全局数据整合分析的需求也越来越强烈。分布式监测系统中的异常流检测与评估作为数据整合问题的一种,在诸如网络攻击检测、流感预测和搜索关键字分析等方面具有重要的应用。受限于网络带宽、拥塞、时延等因素的影响,分布式节点间不能通过直接传输海量数据的方式进行全局数据整合,应设计更高效的整合方法来降低节点间的通信开销。
学位