【摘 要】
:
关系三元组信息作为使用最普遍的知识表达方式,是构建知识图谱的重要来源,而关系抽取任务负责从非结构化文本中抽取出关系三元组信息。传统的关系抽取方法极度依赖大规模已标注训练数据,而标注训练数据需要耗费大量的人力物力,远程监督方法通过将非结构化文本与知识库对齐的方式自动生成大规模已标注训练数据,从而降低数据集标注的成本。远程监督方法虽然解决了标注训练数据的难题,但是由于其强假设思想,不可避免的带来了噪声
论文部分内容阅读
关系三元组信息作为使用最普遍的知识表达方式,是构建知识图谱的重要来源,而关系抽取任务负责从非结构化文本中抽取出关系三元组信息。传统的关系抽取方法极度依赖大规模已标注训练数据,而标注训练数据需要耗费大量的人力物力,远程监督方法通过将非结构化文本与知识库对齐的方式自动生成大规模已标注训练数据,从而降低数据集标注的成本。远程监督方法虽然解决了标注训练数据的难题,但是由于其强假设思想,不可避免的带来了噪声数据,而且标注的训练数据存在长尾分布问题。为了降低噪声数据和长尾分布的影响,并提高远程监督关系抽取模型的准确率,本文提出了一种新型的远程监督关系提取方法:在句子表示方面,利用预训练模型获取词向量,将词向量与位置向量串联形成更丰富的语义向量;在特征提取方面,使用双向门控循环单元模型和图卷积神经网络模型学习训练数据的特征信息;在减缓噪声问题方面,使用词级别与句子级别注意力机制使模型重点关注有效的训练样本,少关注或不关注无效的样本;除此之外,为了丰富数据信息,缓解训练数据长尾分布问题,利用实体背景信息,实体类型信息,关系别名信息辅助关系抽取任务以及使用Focal Loss损失函数使关系提取模型重点关注数据量少的样本,使模型训练更充分。最后使用Riedel和GIDS开源数据集验证模型的有效性。实验结果表明,设计实现的远程监督关系抽取模型相比以往的远程监督关系抽取基线模型在准确率和召回率上得到明显提升,在Riedel数据集上AUC指标上高达0.41。为了更好的展示远程监督关系抽取过程,使用Flask网络框架搭建了一个远程监督关系抽取演示系统。
其他文献
在计算机技术、信息处理技术创新发展的推动下,项目管理理论研究与实践应用表现出良好的创新发展势头,逐渐形成了日益完善的理论体系和应用模式。项目风险管理属于项目管理、风险管理融合发展的产物,对于企业而言至关重要,同时也成为项目经理的基本管理技能。在建设工程智能化应用行业,信息系统智能化发展相较于其它诸多行业发展相对落后,因此相关的项目风险管理研究也相对较少。在信息技术创新发展的推动下,各个行业均呈现出
随着信息技术的发展,财务共享服务中心诞生了,它可以有效的解决传统公司财务模式存在的一些问题,尤其对大型集团化公司的作用很大。论文以一家大型国有集团为案例,并基于此搭建财务共享服务中心系统,为全国的大中型集团公司铺设财务共享服务中心提供案例参考和经验。论文采用文献综述—理论分析—案例研究—案例搭建的研究思路,以作者实习的由传统财务管理模式转型的GZB集团为案例,首先分析它存在流程僵化效率低、运营成本
新冠疫情爆发后,企业在突发事件下如何有效复工复产以及如何防控未来可能面临的经营风险的问题备受关注。随着全球化进程加快和分工不断细化,各国经济相互依赖前所未有,此次疫情的爆发,导致各国经济陷入发展危机,企业囿于经营风险举步维艰。因此,新冠疫情等重大突发公共事件频发背景下,企业如何能有效防控经营风险是其当前生存和未来发展的现实问题。论文在综述国内外相关研究成果的基础上,运用风险控制相关理论,采用规范分
在经济全球化的背景下,从企业内部的角度,由于员工面对的环境不断变化导致员工对企业的需求也随之多样化;从企业外部的角度,供应商的把控、消费者需求多样、竞争对手层出不穷,在企业内外双重压力之下,企业的革新势在必行。本文首先对价值链的相关概念、战略成本管理理论的构成和目标、价值链在战略成本管理中的实际意义进行说明,通过对价值链成本管理与传统成本管理的理念对比凸显价值链战略成本管理理论的内涵。其次,对选取
目前,新冠病毒在全球大流行,为了应对疫情的冲击,互联网医疗得到了广泛的应用,以解决病人在条件受限的情况下就医难的问题。目前,多数的互联网医疗系统是单独运行的,脱离了现有的线下医院。为了提高线上问诊的质量,应该将线上问诊和实体医院的现有数据进行整合。为了解决单体应用开发效率低、部署不灵活、扩展性不够等问题,系统使用前后端分离的系统架构,基于Spring Cloud开源微服务框架实现后端服务的开发。更
科技的进步带来了海量的数据,数据挖掘由此成为当今研究的热点。数据通常以连续属性值的形式出现,但大多数数据挖掘算法只能处理离散型数据,如决策树、朴素贝叶斯等,因此将连续属性值进行离散化处理是使这类数据挖掘算法正常工作的前提。现有的离散化方法可以分为不同的类别,例如基于信息熵的离散化方法、基于多属性的离散化方法、基于统计独立性的离散化方法等,解决的核心问题是如何选择断点以及离散化区间数量。Chi2算法
随着社会医疗能力的提高和居民物质生活的极大丰富,以各种心脑血管疾病、糖尿病、恶性肿瘤等为代表的慢病疾病与老年人共存的问题也逐渐凸显,加上人们不够重视长期熬夜、暴饮暴食等不良习惯,慢病患者人群也呈现越来越年轻化的趋势,同时,中国传统的看病模式导致医疗资源严重紧缺,引发“看病难”等一系列问题。因此,结合互联网诊疗建立慢病管理系统具有十分重大的社会意义。本文针对我国慢病防治和线上诊疗的实际需求,结合移动
移动互联网和计算机领域技术迅猛发展,短视频App在国内外吸引大量深度用户,推荐系统成为短视频内容推荐的重要工具。但由于推荐系统中推荐算法的技术局限性,众多知名短视频内容产品都会设置人工审核和运营系统进行内容干涉,如涉及标题党、软色情擦边球、政治敏感等问题需要进行人工参与,以避免消极舆论、违法等问题的发生。基于协同过滤推荐的运营系统提出将推荐算法与运营系统共同结合的方法,采用C/S架构模式,在服务端
原有APP应用的迭代速度越来越快,面临着需求不断扩展,功能不断扩张的问题:一方面,如何精准地分析APP内产品的竞争力,把握用户的喜爱与偏好成为了一大问题;另一方面,如何在快速的迭代开发中,准确评估此次开发的有效性,成为了各大企业需要面临的又一问题。本文基于某公司线上基金销售业务高速发展、投研能力不断增强的情况下,对基金排行业务进行改版优化。在改版的基金排行APP中,使用React进行前端组件化开发
飞机发动机的循环液冷系统通过转移发动机堆积的热量来缓解发动机的热负荷压力,是保障发动机稳定工作的重要温控系统。但在高寒地区,液冷系统中的冷却液会因高寒气候出现粘度增大的情况,难以执行液冷换热功能。因此高寒地区的飞机在起飞前要先利用冷却液辅助加热系统来提升冷却液的温度,才能安全起飞。传统的加热系统采用将电加热棒浸入冷却液的方式加热,不仅加热效率不高,还容易出现干烧现象,影响加热系统的使用寿命。本文将