【摘 要】
:
知识图谱是组织和管理数据的重要手段,目前已经广泛应用于搜索引擎、问答系统和推荐系统等领域,正在给各行各业赋能。人工构造知识图谱,虽然精度很高,但效率极低,且要耗费大量的人力、物力和财力。如何自动高效的构建知识图谱是核心难题,关系抽取技术是解决这一问题的有效手段。关系抽取是指从文本中自动挖掘出关系三元组,挖掘出来的关系三元组可以用来构建和补充知识图谱。互联网上的文本浩如瀚海,但很多文本不规范,信息量
论文部分内容阅读
知识图谱是组织和管理数据的重要手段,目前已经广泛应用于搜索引擎、问答系统和推荐系统等领域,正在给各行各业赋能。人工构造知识图谱,虽然精度很高,但效率极低,且要耗费大量的人力、物力和财力。如何自动高效的构建知识图谱是核心难题,关系抽取技术是解决这一问题的有效手段。关系抽取是指从文本中自动挖掘出关系三元组,挖掘出来的关系三元组可以用来构建和补充知识图谱。互联网上的文本浩如瀚海,但很多文本不规范,信息量极少,本文旨在从较为规范的新闻文本中自动高效的挖掘出大量关系三元组,用来扩充现有开源知识图谱。基于传统机器学习的关系抽取技术,需要人为设计大量特征,费时费力,而且由上游的自然语言处理工具所造成的错误会引起错误传播。深度学习可以从文本数据中,自动学得对当前任务有效的特征。本文展开基于深度学习的关系抽取算法的相关研究,并且设计和实现了面向新闻网站的关系挖掘系统。本文首先阐述了关系抽取的研究意义和国内外研究现状,然后介绍了深度学习的基本原理以及卷积神经网络(Convolution Neural Network,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)这两种常用于自然语言处理的神经网络模型,并且简单的介绍了自然语言处理中的词向量技术。详细的介绍了中文关系抽取和英文关系抽取所面临的困难的不同,针对目前神经网络在中文和英文关系抽取所存在的缺陷,在中文和英文上设计了对应的以Transformer为主编码器的关系抽取模型。本文的主要贡献如下:1.针对卷积神经网络在关系抽取上无法捕获远距离特征的问题,以及长短期记忆网络无法并行化的问题,根据中文关系抽取和英文关系抽取各自的特点,分别设计了以Transformer为主编码器的关系抽取算法。Transformer通过自注意力机制能够有效捕获远距离特征,而且在计算过程中不需要逐步计算,能够通过矩阵计算实现高度并行化。在中文关系抽取和英文关系抽取上做了大量实验,验证了模型的有效性。2.针对标记语料不足的问题,提出使用半监督学习中的self-training方式迭代训练神经网络模型。不断的从网络上抓取新闻文本,使用现有模型从新闻文本中提取关系三元组,将预测度较高的新闻文本填充到训练集中,从而扩大训练集规模,提高模型性能。3.将对抗训练技术适配到中文和英文关系抽取模型中,对抗训练通过对输入数据增加微弱的随机噪声构造对抗样本,模型在对抗样本上训练。不仅提高了模型效果,而且增强了模型的鲁棒性,有效的减弱了半监督学习中所带来的噪声问题。4.根据对中文关系抽取和英文关系抽取的研究结果,设计和实现了同时支持中文和英文的面向新闻网站的关系挖掘系统。此外,该系统支持上下位关系这种特殊关系的抽取。
其他文献
台阶爆破广泛应用于矿山生产,在爆破施工过程中,因破碎岩石运动规律研究不足,易产生爆破飞石、抛掷效果差等问题。为进一步研究爆破参数的改变对台阶爆破破碎岩石运动规律的影响,利用理论和数值分析的方法构建岩石爆破自由面鼓包运动抛掷速度分布模型,并根据相似理论开展台阶爆破模型试验,分别研究了炸药单耗q、最小抵抗线W和不耦合系数n对台阶爆破破碎岩石运动规律的影响。炸药单耗台阶爆破模型试验研究表明:在炸药能量作
在体育教学过程中出现了部分学生喜欢体育但不喜欢上体育课的现象,就此现状对我校学生进行了调查分析,并对调查结果进行了数理统计、逻辑分析。得出了学生不喜欢上体育的原因
中国证券市场从上世纪九十年代才刚起步,到现在发展了 30年,虽然取得了巨大的成就,但目前有效性还不强。为帮助国内投资者掌握更多的投资策略,丰富国内投资组合理论,同时也为让市场行为更加理性,本文尝试用最大回撤率衡量风险,提出了均值-最大回撤率策略,并将该策略与其他投资组合策略在国内股票市场进行了对比实证分析。本文选取了五种在国内外应用比较广泛的投资组合策略,分别是等权重策略,均值-方差策略,最小方差
近代上海开埠通商,不但是中国社会经济结构变动中的一件大事,也是近代苏州城市命运改变的重要转折。明清时期苏州不仅是当时东南沿海地区米谷转运贸易中心,同时也是长江三角
T公司硬件部门负责产品的设计、市场销售和供应链管理,硬件产品是由外包制造商负责生产的。T公司的新产品上市必需经过工程验证、设计验证和量产阶段。在新产品上市过程中,T公司硬件部门和外包制造商没有在产品的工程验证和设计验证阶段及时发现并解决与设计和可制造性有关的问题,导致了产品在开始量产时的通过率低。T公司硬件部门只能通过增加外包制造商的产能和投入更多的数量才能满足产品上市的需求,从而导致了产品的制造
近年来随着海洋旅游业、海洋资源开发、跨洋运输、远海养殖业等远海商业、产业的飞速发展,船舶在远海作业的频率和面对极端天气的可能性也在增大,沉船事故风险随之增长,对沉船打捞工程提出了大深度和大吨位的技术要求。沉船打捞工程需要制定科学、合理的打捞方案,并最大程度合理安排资源,快速设计出符合打捞要求的方案是保证打捞工作安全的重要保障。打捞工程的方案论证和优化是一个多领域专家参与、考虑多个评价指标、并对有限
作为支柱产业的建筑行业不断发展,虽然产值巨大但利润率却颇低,工程项目亟需精细化的管理。引入以BIM技术作为代表的新兴信息技术应用到建筑业,改变着当前工程建造的模式,推动工程建造过程从原来粗旷的管理方式转向以数字化为特征的数字建造模式。BIM技术在设计阶段的应用效果已逐渐成效,但在施工过程中的应用价值还没有被施工企业的管理者所重视。换句话说,没有看到BIM技术带给项目甚至企业的可量化输出效益,本文旨
在党的十九大报告中明确将乡村振兴战略列为“七大发展战略”之一,这体现了以习近平同志为核心的党中央将乡村振兴提升到国家发展战略的高度,体现了党中央对“三农”问题和乡
随着马斯克的“星链Starlink”计划发布,各国都开始在卫星领域有所布局。我国的中国航天科工集团也推出了“虹云工程”,计划建设一个星载宽带全球移动互联网络。在卫星计划的研究过程中,有学者提出基础网络采用软件定义网络与卫星网络相结合的方案,这一方案使得卫星网络上的数据控制与数据转发更加灵活,使卫星网络能够提供更多的业务支持,从而创造更多的经济效益。软件定义网络技术是一种新兴的将网络中的控制层与转发
随着社会发展以及国民饮食习惯的改善,国民对冷链产品的需求与日俱增,冷链物流公司也因此迎来发展的黄金时期。但同时冷链配送成本高、环境污染大的特点,成为冷链物流公司发展的阻碍。因此,在满足大规模配送需求的基础上,如何规划车辆配送路线,能够实现降低配送成本的同时有效减少配送过程中能耗和污染物排放,实现经济与环境双赢,逐渐成为目前冷链物流公司关注的热点。另外,在冷链产品需求量比较大的城市,交通拥堵往往已成