基于联合训练和无监督方法的中文知识图谱问答研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zcysun618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱问答任务是指以知识图谱作为答案信息来源的自动问答任务。借助知识图谱问答模型,用户通过自然语言问句描述其信息需求,就可以从知识图谱中获取正确答案。因此知识图谱问答具有重要的应用价值。目前学术界已有较为丰富的关于知识图谱问答的研究,但这些研究主要集中在特定的英文知识图谱上,无法简单地直接迁移到中文应用场景中。因此中文知识图谱问答仍需进一步深入研究。此外,现有的知识图谱问答模型都以有监督学习为主,需要依赖一定规模人工标注的问答对数据,这限制了知识图谱问答在低成本小领域场景的应用。针对上述问题,本文进行了如下三个方面的研究。(1)改进中文知识图谱问答的state-of-the-art模型。目前中文知识图谱问答的state-of-the-art模型将知识图谱问答任务分解为问句主实体识别,实体链接和关系预测三个子任务。本文指出该模型三个子任务各自独立训练没有有效地利用各子任务之间的相关信息;此外该模型将主实体识别建模为一个序列标注任务,没有对问句中包含的主实体个数进行显式约束。本文使用共享参数的多任务联合训练技术和pointer-network来分别解决这两个问题,进一步提升了中文知识图谱问答的state-of-the-art性能。(2)提出基于度量学习的无监督关系预测模型。上述知识图谱问答模型需要使用人工标注的问答对数据进行训练,该数据标注难度较大。本文针对该模型中的关系预测子任务提出了一种基于度量学习的无监督关系预测模型。该模型利用候选关系和主实体自身的文本作为元信息,构造示例样本来表示候选关系的语义,通过恰当的策略利用预训练语言模型为问句和示例样本构造语义表示,并提出了一种语义相似性度量函数来计算问句和候选关系之间的语义相似度,最终达到了较好的性能。无监督关系预测模型可以使本文的基线知识图谱问答模型对标注数据的依赖从问答对数据降低为问句-主实体数据,这将显著降低人工标注数据的难度和成本。(3)提出基于语言表示的端到端无监督知识图谱问答模型。该模型利用知识图谱中全部三元组的头实体和关系谓词构造示例样本,通过在语言表示空间中找到和问句语义最接近的候选示例样本得到问句的答案,实现了完全无监督的知识图谱问答。此外,该模型通过向量空间中的近似最近邻技术以很低的计算资源近似实现了问句和知识图谱中全部候选示例样本的语义计算,因此在大规模知识图谱上也具有很好的可扩展性。该模型不依赖任何人工标注的训练数据,因此具有更低的应用成本和更广泛的应用场景。
其他文献
叶村-姚家研究区位于扬子地台东南缘,处于钦杭成矿带的东部。区内曾先后经历了四堡期、晋宁期、加里东期、印支期、燕山期和喜马拉雅期构造运动。由于不同时期的应力和方向不
Microbacterium sp.XT11是一株能够有效降解食品级黄原胶并生成寡糖的微细菌。目前,对其降解黄原胶的分子机制还鲜有研究。本研究对XT11黄原胶降解酶系中的黄原胶裂解酶展开
跨座式单轨以其轻便灵活的优点越来越多的被应用到城市交通上来,其中轨道梁在列车运行中具有承重和导向作用,因而梁面异常对于列车的安全运行具有严重威胁,目前使用的人工巡
浑江煤田处于吉林省的东南部,勘探开发历史悠久,属于老矿区,其找煤一直是吉林省的重点工作之一。浑江煤田主要含煤地层是上石炭统太原组和下二叠统山西组,并有少量零星分布在
长胜渠金矿区地处内蒙古乌拉山-大青山金、银、铁、白云母成矿亚带中,具有较大的金找矿潜力。本文在广泛收集区域地质资料的基础上,通过详细的野外地质勘查工作,以岩石学、矿
混凝土在动态荷载作用下存在率效应,随着应变速率的增加,混凝土的力学性能和破坏形态较混凝土在静态荷载作用下的力学性能和破坏形态会发生改变。如今混凝土在各类工程中广泛
随着无人驾驶汽车、增强现实和虚拟现实等技术的快速发展,作为其中的关键技术,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)成为了研究热点。根据传感器
随着生产发展和科学技术的现代化,使得现代机械设备的结构愈加复杂,各种各样的功能也愈发全面,机械设备自动化的程度也在不断的提高,给经济发展提供了重要贡献。而轴系设备是
近年来,随着地质勘探的不断深入,勘探目标越来越趋于复杂化,多样化,采集得到的地震数据也呈现出不规则性,不完整性,这给后续地震数据的处理带来了很多麻烦,最终影响对勘探结
上地壳岩石普遍为含有一定孔隙度的复杂孔隙结构,孔隙填充物可由粘土、油、气、水等成份组成,这种不均匀异质性特征使关于地震波在地下介质中传播问题的研究更为复杂。在力源