基于查询图排序的知识库问答方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:alex709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于知识库的问答系统能够针对用户提出的自然语言问题直接作答,相比于借助形式化查询语句获取知识库内容的方式,问答系统更加智能且高效。依托于大规模知识库的问答系统通常采用流水线工作模式,在这种模式下,系统利用自然语言处理的相关技术确定问题查询的主题实体,并在知识库中抽取主题实体相关的三元组,从中找到与问题相关度最高的组合用以抽取问题的答案。知识库中相互关联的三元组表现为小规模的图结构,这种结构被称为查询图,它能够反映实体间的知识推理过程。可以说,知识库问答系统检索答案的过程就是对包含主题实体的查询图按照与问题间相关度进行排序的过程。本文将对基于查询图排序的知识库问答系统中各个环节所涉及的主要方法进行研究。本文的研究内容可以概括为以下三点:1.面向知识库问答的主题实体识别技术。为了从问题中识别出主题实体的指称,本文以预训练模型ERNIE为基础分别设计了序列标注模型以及用于在问题中预测实体边界的模型。本文还将基于模型的实体识别方法与基于字符串匹配的实体识别方法融合,以解决模型识别结果可能不是知识库实体指称的问题。2.面向知识库问答的实体链接技术。本文首先从知识库中召回与实体识别结果对应的全部实体作为候选,然后从多个角度提取实体特征并利用排序模型计算实体与问题间的相关度。为了覆盖复杂问题中涉及的多个实体,并提高实体链接环节的容错能力,本文将相关度最高的4个实体作为链接结果。本文还基于Lambda Rank算法设计了一种用于训练排序模型的方法,显著提高了排序模型学习样本间相对顺序的能力以及排序的准确性,并将这种方法也应用于查询图排序模型的训练过程中。3.面向知识库问答的查询图排序技术。本文设计了动态扩展规则用于生成可能包含问题答案的候选查询图集合,还设计了两种扩展限制策略用于缩小候选集合的规模。本文从多个角度提取查询图特征并利用排序模型计算查询图与问题间的相关度,进而选择相关度最高的查询图用于抽取答案。此外,在提取查询图特征的过程中,本文将预训练模型ERNIE与图匹配网络结合,以计算查询图与自然语言问题间的语义相似度。基于本文方法搭建的知识库问答系统在CCKS2020 CKBQA任务测试集上的F1值达到0.8828,接近比赛第一名的水平。
其他文献
随着红外成像技术的不断发展、前沿的新技术对红外成像系统开发设计上的优化,红外热像仪在军事、工业、生活各个领域的应用场景也在不断拓宽。由于2020年新型冠状病毒引起的肺炎疫情的迅速扩散,利用红外热像仪在公共场所进行精准的体温监测成为了相关领域的重点研究内容,红外热像仪性能的好坏将直接影响体温监测的准确性,对疫情防控工作至关重要。因此对于用于体温监测的红外热像仪,建立全面、科学的性能评估模型,准确预测
随着国家对工业排放超净治理的持续推进,以火电厂、集中供热企业为主的工业燃煤企业相继完成大气污染超低排放改造,但大气污染形势仍然严峻,尤其以雾霾为特征的区域性大气环境问题依然突出。根据相关数据显示,在我国北方农村地区低效散烧燃烧和秸秆野外焚烧排放的污染物占雾霾主要成分总量的20%以上,已成雾霾天气的重要原因之一。因此生物质能热电联产作为既能解决农作物秸秆野外焚烧造成的污染问题,又能作为农村地区提供高
城镇化与工业化进程在推进我国经济快速发展的同时,亦对自然环境造成了较为突出的伤害,其中,较为突出的一点便是带来了当前的较为严重的各类水污染问题。从2007年开始,我国政府大幅度提高对于环保行业的投入,由此引发了环保行业的爆炸式发展。伴随行业的高速发展,进入这一领域的企业也越来越多,尤其是近年来建筑类国企、央企以及国外资本的强势介入,正对我国民营环保企业的生存空间构成了强烈挑战。为此,如何为企业构建
随着信息化时代的来临,军事文本信息出现“过载”的问题,这为情报分析人员增加了沉重的负担。利用自然语言处理中的信息抽取技术智能地提取其中的有价值信息并呈现出来,是一种备受瞩目的解决方案。而命名实体识别技术作为信息抽取领域中的基石,其重要性不言而喻。本文立足于军事命名实体识别任务,对基于预训练语言模型的深度学习方法进行研究。因为军事领域相关的语料集匮乏,出于研究需要,本文首先以军事新闻文本为数据源构建
随着微纳米加工技术、纳米超材料的发展以及超精密结构的日益复杂,对于微小空间结构三维尺度测量的需求日益迫切。共焦显微技术具有独特的三维层析能力、高分辨力、对被测样品无特殊要求、非接触测量不会损伤样品表面等优点,可广泛应用于微结构三维形貌测量方面。目前外差共焦仍然是提升共焦显微系统轴向分辨力的主要手段之一,但是由于该系统采用硬针孔结合光电探测器的方式存在针孔离焦位置调节困难、容易堵塞等诸多问题,致使系
随着互联网上信息量的快速增长,人们对信息检索效率的要求越来越高。如何从互联网上高效的获取信息成为一个重要的问题。搜索引擎是检索信息和收集互联网数据最为有效的工具,但是搜索引擎返回的结果仍然包含着诸多的干扰信息和冗余信息,需要进行进一步的分析和归纳才能掌握搜索引擎返回的重点。而面向问题的文本摘要可以解决这个问题,面向问题的文本摘要旨在基于给定的问题从文档中返回一段含有文档中重要信息的简短的文字,配合
光场显微技术作为一种无需扫描、可伸缩的方法,可以以高分辨率观察跨越多个时空尺度的各种解剖和功能信息,从而实现从单细胞标本到哺乳动物大脑的高速、体积成像,但重建伪影的出现和复杂的计算成本大大限制了光场显微技术的广泛应用。因此研究人员通过两个方面对光场显微系统不断进行优化和改进。一方面通过调整微透镜阵列的相对位置,得到了较高分辨率的光场显微镜,并有效避免了重建伪影;另一方面,通过将微型显微镜平台和光场
近年来,我国在电力系统建设上的投入不断增加,电网覆盖范围也越来越广,随之而来的是输电线路舞动事故发生频率逐年攀升。舞动已经成为造成电路安全隐患的主要原因之一,并成为各国研究焦点问题。使用输电线路舞动监测技术可以得到输电线舞动的关键参数,这一点对于研究舞动产生机理以及分析影响舞动因素就尤为重要。输电线路舞动监测技术有诸多解决方案,其中,基于视频采集的监测技术凭借其非接触测量特性,可以较大程度地省却安
为了提升高功率激光装置中大口径光学元件的初始损伤检测与跟踪能力,针对光学元件损伤暗场图像的纹理信息少、关键信号微弱的问题,提出基于模型集成的暗场图像超分辨率重建方法,对早期发现光学元件损伤具有重要意义。本文主要研究内容如下:(1)对图像超分辨率重建方法进行系统综述,分析了从传统的基于插值法到目前的基于深度学习法的图像超分辨率重建技术原理和特点;(2)提出一种基于模型集成的暗场图像超分辨率重建方法,
由于“大跃进”和农村人民公社化运动的失误,加上1959—1961年连续三年自然灾害和苏联政府背信弃义地撕毁合同,使我国国民经济陷入困境,国家和人民遭遇重大损失,农村生产力遭到破坏,农业产值特别是粮食产量连年减产,人民口粮出现供应紧张的状况,部分地区出现严重饥荒。粮食成为影响全国人民群众最突出的问题。1960年代初的农业困难引起了整个国民经济困难,党中央为了战胜困难,走出困境,1960年8月10日中