基于邻居筛选的大规模知识表示学习方法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:betty5918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识表示学习是用于知识图谱补全的重要技术。翻译模型作为知识表示学习的代表模型,因其参数少且容易解释,被广泛应用于大规模知识表示学习中。近几年,为了克服翻译模型孤立地考虑各个三元组的缺点,实体的邻居信息被引入到翻译模型中。然而现有模型缺乏合理的邻居选择策略,导致开销过大且容易引入噪声,或者容易遗漏重要邻居。同时,现有模型忽视了邻居作为实体也具有多种属性,只能为每个邻居确定一个固定的权重,无法为邻居中的众多属性确定不同的权重。这些问题导致现有模型难以高效利用邻居信息提高建模实体向量和关系向量的质量。为解决上述问题,提出了一种基于邻居筛选的翻译模型TransMIA。针对引入全部邻居带来的开销过大及随机选择邻居会遗漏重要邻居的问题,TransMIA通过设计一种基于互信息的邻居选择策略,来计算邻居与实体所在三元组中关系之间的互信息,并根据该计算结果确定邻居与实体所在三元组的关联程度,为实体选择与其所在三元组最相关的N个邻居。同时,TransMIA为实体设置多个邻居集合。当实体与不同的关系连接时,能够为实体选择不同的邻居,分别加入到对应的邻居集合中,充分建模实体语义。针对现有模型只能为每个邻居确定一个固定权重的问题,TransMIA设计了一种关注邻居属性的注意力机制。该机制首先为邻居确定一个固定的权重,然后根据邻居与实体相连关系,在模型训练过程中调整邻居向量中各个维度的权重,最终为邻居向量的每个维度确定不同的权重,从而突出邻居中对建模实体和三元组语义最重要的属性,有利于充分利用邻居信息。实验表明,TransMIA模型提高了建模实体和关系向量的质量。在链接预测任务上,TransMIA模型在不同数据集上的MRR指标提升了2.3%~45.7%,Hits@10指标提升了1.2%~36.1%。在三元组分类任务上,TransMIA模型在不同数据集上的分类准确率提升了0.9%~13.9%。通过对邻居进行筛选,TransMIA模型能够更好地利用邻居信息,进而优化知识表示学习得到的向量,实现在下游应用中取得更好性能的目标。
其他文献
物流案例对物流专业教学、领域科研和工程实践不可或缺。伴随互联网技术广泛应用和现代物流业飞速发展,可供参考的物流案例丰富,却分散在各处,结构化较弱,且常用的依赖关键词的案例检索无法实现精确匹配,难以快速且准确获取所需案例。从相关研究来看,案例表示尚缺乏领域知识特点,而知识元模型层次性好,有利于知识组织与重用,基于知识元的高效准确的检索算法也有待进一步研究。本文以构建物流案例服务系统为背景,基于知识元
学位
激光诱导击穿光谱(Laser-Induced Breakdown Spectroscopy,LIBS)技术因其具有无需或制样简单、原位快速、远程和多元素同时分析等独特的优势,已被用于核聚变、深海探测和火星勘探等众多领域。但在LIBS的定量分析过程中由于等离子体特性、位置与形态等的变化导致LIBS光谱产生较大的波动,进而降低了其定量精准度,限制了LIBS的大规模商业化应用。因此,针对LIBS光谱稳定
学位
随着轻量便携化、可穿戴式、可植入电子器件的发展,迫切需要开发与其兼容的高储能密度、柔性化微型储能器件。微型超级电容器(MSCs)因其高能量/功率密度和长循环寿命,在微型储能器件领域具有广阔应用前景。丝网印刷技术提供一种可规模化、低成本、高通量的MSCs制造方法。印刷油墨是丝网印刷制备MSCs的关键材料,可印刷MSCs用油墨应具有高电导率、可调黏度及长期稳定性。目前MXene油墨在可印刷MSCs领域
学位
随着显示技术的不断发展,人们对显示器件的画质、刷新率和便携性等有了更高的要求,其中柔性有源矩阵有机发光二极管(AMOLED)显示等技术逐渐成为产业和研究关注的热点,为了实现可靠的弯折性能和优质的显示质量,聚酰亚胺(PI)薄膜成为了现阶段柔性显示中衬底材料的最优解。本文从制备工艺和电学及光学性能的角度出发对用于柔性显示的聚酰亚胺基板进行研究。(1)研究不同种类的聚酰亚胺基板的工艺制备,包括无色透明聚
学位
近年来,红外探测器小、微型的发展趋势使得其内部的焦平面阵列像元尺寸不断减小。为了保证红外探测器灵敏度和光信号收集效率,目前最常用的技术就是微透镜阵列集成工艺。利用微透镜阵列的聚光性,可以将入射到探测单元的光线全部收集到光敏区内,大大提高了光能利用率的同时还可以减少像元之间的串扰。本文从聚光型微透镜阵列出发,针对激光探测领域,研究了可集成于盖革模式APD探测器的微透镜阵列,通过提高红外焦平面填充因子
学位
随着全球数据总量的爆发式增长,数据去重和差量压缩作为当前主流的冗余数据删除手段,得到了越来越多的关注。为了提高差量压缩的压缩效果,相似性检测技术常常被用于差量压缩对象的选取。然而,目前主流的相似性检测方法存在着特征提取速率慢和相似数据检测不充分等问题,成为了联合数据去重和差量压缩的冗余数据删除系统的性能瓶颈。为了解决现有的相似性检测方法存在的特征提取速率慢的问题,提出了基于高级矢量扩展512(Ad
学位
通过在边缘部署存储服务,将云端的数据存储在边缘,以允许终端设备高速访问这些数据,从而降低数据访问的延迟。但在边缘环境中,边缘服务器的内部复杂机制、用户与边缘服务器的距离不同以及动态网络都会对系统的服务质量产生影响。副本选择策略作为一种广泛使用的提高系统服务质量的请求调度方法,通过为请求选择延迟最低的边缘服务器,能够有效降低每个请求的处理时延。然而,现有的基于客户端的分散选择方法因其缺少完整的服务器
学位
核磁共振(NMR)技术是获得生物大分子的结构和功能动态信息的最具潜力的方法之一,特别是在以原子分辨率测量生物大分子的结构和动力学信息方面,但是这一方法的发展受限于核磁共振技术固有的灵敏度较低,难以对浓度较低的蛋白质进行研究。为了提高液体环境下核磁共振技术灵敏度,增强样品的信号强度,本课题研制了一套激光诱导动态核极化实验装置,利用该装置可以在低样品浓度下(微摩尔级别)增强样品的核磁共振信号,有望实现
学位
随着web3.0时代的到来,新闻门户、今日头条和微博等信息发布平台取代了传统媒体。任何用户都可以在这些平台发布和获取信息,造成网络新闻文本数据爆炸增长。来自社交媒体的网络短文本数据沉淀了极具社会价值的信息,但短文本存在口语化、缺失语义和指代不明等问题。如何从海量短文本中实时发现当前最具价值的话题成为了舆情发现系统的难点。针对传统的舆情发现系统在处理短文本时存在文本向量语义缺失、话题发现效果较差的问
学位
增材制造工艺的不断发展给传统制造业的生产模式与生产效率带来了革命性的变化,表面缺陷检测作为增材制造质量检测的关键手段成为增材制造技术研究热点。为了避免当前打印层的缺陷影响后续的零件成形质量,本文利用三维点云数据和深度学习技术,检测出电弧增材制造零件生产过程中的表面缺陷,从而为后期的缺陷处理方案提供重要的参考依据。本文主要有以下点云数据预处理和基于深度学习的表面缺陷检测两方面的研究内容:针对传统点云
学位