基于图谱实体表示与排序学习的文本检索方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wuhanchi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在高速发展的互联网时代,检索成为了人们查找并获取知识重要手段,其便利的使用方法可以帮助人们快速获取想要的信息。文本检索作为最基本的检索方式之一,虽然在过去的几十年中通过传统的布尔模型,词袋模型和一些经典的排序算法有了极大的提高,但是仍然存在很多问题。一方面是算法在自然语言的理解上的不足。传统的方法大部分基于词频的统计匹配而并非是在语义上理解文章和问题给出答案,导致很多答案没有准确理解搜索语义而被排除掉。另一方面传统的排序模型也存在着学习能力不足,学习效果严重依赖于人工特征选择和提取等问题。在过去的几年中深度学习模型和知识图谱表示推理有了很大的进展,并在各个领域取得了重要突破。深度学习网络因为其端到端的优秀提取特征能力,以及层数的叠加带来的计算收益在很多方面超越了传统的机器学习算法,在深度学习模型上发展的词向量和文本表示模型已经广泛的应用在自然语言的各种分支中。知识图谱可以描述实体的概念和实体之间关系,并构成巨大的网络关系图,其中的概念经过人工审核准确而可靠。通过知识图谱,可以准确的存储有关实体的知识,在问答和检索,实体连接等任务上都有可靠的表现。借助现有的知识图谱表示方法和深度学习排序学习模型,本文提出了新的文本检索模型(AttentionKernel Entity Similarity Ranking,AKESR),新模型可以增强单词多层面的语义理解,并且实现端到端的特征提取与排序打分,和以往的深度学习检索模型相比可以使用更少的数据达到满意的效果。本文提出的基于图谱实体表示和深度学习网络的文本检索模型包含创新点如下:1.在深度学习排序学习模型中引入基于知识图谱的多关系实体嵌入。不同于传统网络中把词向量作为输入,本文中的输入主要基于知识图谱中训练的多关系实体向量。根据已有的知识图谱库以及文本库中的文献自建适合该任务的知识图谱,并通过知识图谱实体表示方法提取出多种关系的向量字典。2.采用多维度相似度矩阵作为网络输入,保留多维度实体匹配相关信息。提取出数据集中的检索问题和文章中的实体,在相同关系的维度上进行对应位置两两相似度匹配从而得到多维的相似度矩阵。3.在原有模型网络中引入改进的多头自注意力机制。将检索问题中词向量的自注意力分配与实体网络特征提取的结果相结合,以提取检索问题中词汇之间的相互依赖关系。将多维相似度矩阵输入网络,经过高斯核卷积和自注意力机制相结合的方法进行特征提取并通过全连接层训练。最后本文通过Pairwise为损失的训练方法得到最终的训练网络,从多个角度对比传统检索方法和现有的深度学习检索算法,实验证明该网络可以在引入实体的背景关系并且有效降低训练所需数据量的同时,提供较高的准确率。
其他文献
文本分类是自然语言处理领域最基础、最常见的任务之一,也是很多其他任务的前置模块。通过文本分类可以将有价值的部分粗略的筛选出来,摒弃掉其他的部分,得到较为可用的数据
2018年两会政府工作报告提出“发展壮大新动能”、“为数字中国建设加油助力”;十九大报告中提出“高质量发展是我们当前和今后一个时期确定发展思路、制定经济政策、实施宏观调控的根本要求”。当前,数字技术与各产业深度融合,互联网平台为各领域数据流通提供了高效便捷的传输通道,数字经济已成为推动传统产业转型升级、区域经济增长的核心动力。本文基于已有学者的研究,首先界定数字经济的内涵和特征,分析数字经济对经济
目的:检测肝硬化患者血清高尔基体蛋白73(GP73)和糖类抗原125(CA125)的表达水平,并探讨其与肝硬化Child-Pugh分级的相关性及对肝硬化的诊断价值。方法:1.选取皖南医学院第一
制药工业与人类生命健康息息相关,维生素E作为一种大宗的原料药,其生产过程常伴随着大量的醋酸废水溶液产生,直接排放导致醋酸资源浪费,并且造成严重的环境问题。本文对比研究了当前的醋酸水溶液处理方式,其中萃取精馏法具有产能较大、能耗较低、萃取剂可以反复使用等优点,因而被本文所采用。首先,论文采用Aspen Plus模拟软件,根据醋酸水溶液的特性,并结合前人的文献模拟经验,选择以NRTL-HOC为物性方法
近年来,由于诸如环境问题和可用化石燃料的枯竭等原因,可再生能源发电引起全球关注,这其中太阳能是最容易利用的能源。然而,由于光伏系统的功率输出取决于太阳辐照度和天气条件,因此辐照度的变化会导致光伏系统输出功率出现大幅波动,从而导致在多云这样的天气条件下,公共耦合点的电压和电流出现大幅波动,并产生较严重的谐波失真。而且,这样的输出功率波动会给电力系统带来严重的影响。太阳辐照度变化带来的功率波动,在接入
在高氮含能化合物快速发展的今天,双环三唑被认为是可以改善单三唑环的能量性质,生成更高密度、更好稳定性、更低感度和更好氧平衡的高氮含能化合物。本论文通过双环三唑的多个化学修饰位点,引入硝化高能基团(如:硝基、硝氨基、三硝基甲基);或通过引入N-氧化物的方法;同时利用桥连基团改善化合物的正生成焓,提高爆轰性能。研究内容主要分为以下三部分:(1)基于双(1-硝胺基-3-硝基-三唑)的理论研究利用双环三唑
α-酮异戊酸(α-ketoisovalerate)作为一种支链酮酸,是重要的医药中间体,被广泛应用于合成临床药物α-酮酸片,治疗尿毒症。利用代谢工程策略构建α-酮异戊酸合成重组菌株,实现α-酮异戊酸高效合成,势必促进其商业应用。本文在大肠杆菌中,通过协调α-酮异戊酸合成途径中的三个关键基因的表达、删除其竞争代谢途径编码基因、协调辅酶循环,实现了α-酮异戊酸的高效发酵合成;进一步通过设计和构建氧调控
辽西北地区降雨空间分布不均匀,降雨量少且蒸发量大,植被覆盖度低,水分渗漏问题极其严重。因此,开展辽西北风沙地土壤入渗特征研究,对于揭示土壤水分入渗过程、提高水资源利用效率、植被恢复及土地调整与合理利用等方面具有重要意义。本文以辽宁省沙地治理与利用研究所章古台试验站所在风沙地为研究对象,采用野外采样、野外双环入渗、室内理化性质测定、数据处理与统计分析等多种研究手段,分析土壤物理性质变化特征及其空间变
实体和关系的抽取作为自然语言处理中知识抽取的主要环节,是一大研究热点。然而传统的基于流水线的实体关系抽取方法并不能达到良好的效果,现有的联合抽取方法通常需要复杂的
随着平台经济的蓬勃发展,越来越多人们的日常生活已经跟互联网形成了密不可分的关系。而“互联网+”背景下平台经济的发展同时也促使社会中用工方式日趋呈现多元化趋势。例如,大多数上班族为了提高工作效率已经不再满足于挤乘地铁或公交,取而代之的是“滴滴快车”的使用;而“美团外卖”、“饿了么”等软件的普及更是使得人们足不出户就可以解决一日三餐的问题。这种共享经济的发展已经对传统用工方式造成了一定的冲击,使得传统