【摘 要】
:
随着信息时代的到来,越来越多的数据、信息填满了我们的生活。关系抽取是知识图谱中的一个重要任务,能够从非结构化的自由文本中提取出可以存储到知识库中的结构化信息。本文研究了基于神经网络的关系抽取技术,针对现有研究存在的问题,提出了两个有效的基于神经网络的关系抽取方法。首先,针对远程监督带来噪音从而影响抽取结果的准确度这一问题,设计了一个基于BiLSTM和空洞卷积神经网络联合编码的关系抽取方法。该方法从
论文部分内容阅读
随着信息时代的到来,越来越多的数据、信息填满了我们的生活。关系抽取是知识图谱中的一个重要任务,能够从非结构化的自由文本中提取出可以存储到知识库中的结构化信息。本文研究了基于神经网络的关系抽取技术,针对现有研究存在的问题,提出了两个有效的基于神经网络的关系抽取方法。首先,针对远程监督带来噪音从而影响抽取结果的准确度这一问题,设计了一个基于BiLSTM和空洞卷积神经网络联合编码的关系抽取方法。该方法从联合抽取特征的角度进行去噪工作。首先使用预训练的词向量模型对句子进行处理,将单词转化为向量表示,作为模型的输入。然后输入到BiLSTM中提取句子的依赖信息,同时使用空洞卷积神经网络提取句子的语义单元信息。在此基础上使用卷积神经网络将得到的特征向量进行融合,进一步进行编码,得到同时包含句子依赖信息和语义单元信息的特征向量,使得特征向量包含更多句子的语义信息,提高抽取结果的准确性。同时,我们使用句子级选择性注意力机制为句子分配权重,进一步减小远程监督带来的噪音的影响。最后通过实验验证了所提方法的有效性。其次,针对关系抽取中的重叠三元组问题,设计了一个基于卷积神经网络与Transformer融合的序列到序列的关系抽取方法。现有的主流关系抽取模型只能抽取普通类型的三元组,对于句子中含有多个三元组相互重叠这一类问题有较少的研究。本文设计了一个基于序列到序列的关系抽取模型,将卷积神经网络融合到Transformer中作为句子的编码器,提取句子的特征,再对其进行解码,识别句中所有可能的主语以及每个主语对应的关系和宾语,从而得到句子中不同重叠类型的三元组。实验部分,我们在两个公开数据集中测试了所设计的模型,证明了模型的有效性。
其他文献
《语言自迩集》是十九世纪中期威妥玛编写的一部汉语教科书,其编写目的是供英国驻中国领事馆的学员打好基础,用最短的时间学会当时的北京官话口语。王洪君教授将其收录于“早期北京话珍本典籍校释与研究”系列丛书,该部教科书针对性强,体例完整,科学实用,研究该部教科书于当今对外汉语教学有重要意义。这部教科书最早于1867年出版,经历1886年再版,1903年删减版。作为百年前的汉语教科书,《语言自迩集》在语言学
研究背景神经内分泌肿瘤(Neuroendocrine Neoplasms,NEN),曾经被称之为类癌(carcinoid),是一组高度异质性肿瘤,起源于肽能神经细胞和神经内分泌细胞,它可以发生在人体的许多器官和组织中,例如胃肠道、胰腺、支气管、肺、乳腺、垂体等,并且不同部位的NEN具有不同的临床特点。NEN最常发生于消化系统,在胃肠道和胰腺神经内分泌肿瘤(Gastroenteropancreati
聚苯胺(PANI)作为重要的导电聚合物之一,因制造成本低、导电性好、稳定性好和可加工性好等优点而在气体传感器领域显示出广阔的应用前景。作为气体传感器而言,纯相聚苯胺传感材料存在着形貌较单一、灵敏度较低、检测下限高等问题。通过提高PANI材料的晶化度和表面活性以及与氧化物复合是解决上述问题的有效途径。然而,目前报道的PANI与氧化物复合材料在进行气敏性能测试时均体现出聚苯胺的响应特性,且灵敏度较低,
缓解教育高压成为多国教育改革之重点。近邻韩国“双减”政策肇始于20世纪70年代,以社会发展诉求、教育内卷严峻、社会负担加重为现实背景,以通过推行“平准化教育”和取缔校外补习机构为主要内容,但终究无力扭转教育高压现状,憾以失败告终。研究认为韩国“双减”政策失败原因为其政治体制框架下多因素综合作用导致的必然,基于教育视角可总结为三点:其一,受古代科举与现代高考影响,立身扬名与考试竞争价值体系根深蒂固;
在本论文中制备了三种半刚性芳香多羧酸配体,分别是:H_3cbca(4?-(1-carboxyethoxy)-[1,1?-biphenyl]-3,5-dicarboxylic acid),Hcmtna(4-(carboxy methoxy)-6-methyl-1-(p-tolyl)-2-naphthoic acid)以及H_2cmna(6-(carboxy methoxy)-2-naphthoic
十八大以来,在国家推进党风廉政建设和反腐败斗争高压形势下,我国反腐败斗争取得里程碑式的进步。面对复杂严峻的反腐败形势,我们一定要认识到,腐败仍然是执政党面临的最大风险。存量仍未清底,增量仍在发生。在深刻把握反腐败斗争新形势下,毫不动摇地查处不收敛不收手的腐败分子,重点关注政治问题和经济问题交织的腐败案件,是我国在过去几年的反腐实践中,得出的宝贵经验。本文从中央纪委监委官方网站上公布的中管干部党纪政
在体育比赛伤害事故案件中,适用自甘风险规则的频率较高,但因我国之前法律尚未明确自甘风险规则,因此在哪些范围可以适用自甘风险,未成年人是否能适用自甘风险,在适用自甘风险的情况下能否再适用公平原则,这些都存在争议。已生效的《民法典》第1176条首次规定了自甘风险规则为独立的抗辩事由,过于原则化,其适用范围“文体活动”应作扩大解释,包括文艺活动、文化娱乐活动、体育活动,其中体育活动包括:极限体育运动、职
研发新药是一个代价高昂的事情,既耗时又费钱。为已经问世的药物探寻新的治疗效果有助于降低药物的研发成本。在先前的研究中,大部分预测方法只考虑了单一来源的药物和蛋白数据。即没有从多个维度去考虑药物、蛋白相关的信息,也没有充分利用全部的已知数据信息。因此,开发一个将多种药物和蛋白相关数据融合起来方法是很有必要的。本文提出了三种融合多种生物信息数据的预测方法,一种是基于梯度提升决策树探究药物与蛋白之间的相
赫哲族是中国黑龙江省的一个少数民族,只有语言,没有文字。伊玛堪作为赫哲族独特的曲艺形式,虽然没有伴奏,但是其通过叙述和诵唱两种方式的结合对赫哲族的民间故事进行了传神的演绎。伊玛堪包括赫哲族的生活方式、宗教信仰以及民间音乐等内容,研究伊玛堪对研究赫哲族文化和团结赫哲族群众有着重要作用。然而,由于种种历史原因,赫哲族的人口急剧下降,赫哲族语言面临消亡风险,如今没有人能够演唱完整的伊玛堪故事,伊玛堪的传
随着化石能源的逐渐减少和环境的不断恶化,发展高效、清洁、可持续的能源以及能源转换新技术已经迫在眉睫。由电解水制备高纯氢气是获得氢能源的一种有效方法。电解水可分为在阳极上进行的析氧反应(Oxygen Evolution Reaction,OER)和阴极上进行的析氢反应(Hydrogen Evolution Reaction,HER)现阶段,贵金属及其相关的氧化物是目前最高效的催化剂,但是其高成本以及