【摘 要】
:
互联网技术发展日新月异,网络数据也增长迅速。面对海量的、形色各异的数据,人们疲于主动挖掘得到精细的有效信息。信息抽取旨在从非结构化文本中自动地提取出结构化的数据。其中一项关键技术便是关系抽取,它能够抽取一段文本中两个客观实体和其蕴含的关系事实,进一步组织为三元组形式的结构化知识,为知识图谱的构建和自动问答等下游任务提供了基础数据。关系抽取一般可分为两个子任务:实体识别和关系分类。实体识别是从文本中
论文部分内容阅读
互联网技术发展日新月异,网络数据也增长迅速。面对海量的、形色各异的数据,人们疲于主动挖掘得到精细的有效信息。信息抽取旨在从非结构化文本中自动地提取出结构化的数据。其中一项关键技术便是关系抽取,它能够抽取一段文本中两个客观实体和其蕴含的关系事实,进一步组织为三元组形式的结构化知识,为知识图谱的构建和自动问答等下游任务提供了基础数据。关系抽取一般可分为两个子任务:实体识别和关系分类。实体识别是从文本中自动识别所有命名实体,关系分类是在指定任意两个实体后,预测这对实体对的语义关系。研究者一般将关系抽取视为一种特殊的文本分类任务进行处理,任务的输入是一段文本和指定的实体对,输出为实体对蕴含的关系,一般采用监督学习的范式训练模型。而监督学习,尤其在深度学习时代,对样本数据规模的要求非常高,人力时间成本极高的人工标注方案难以应付,数据受限成为制约关系抽取发展的挑战之一。针对关系抽取任务数据受限的问题,远程监督通过启发式将知识库中存在的事实三元组与大量非结构化文本进行对齐,实现了大规模的自动化标注,使模型能够利用充足的数据进行训练。然而,这种假设极强的方法不可避免地引入标注噪音。目前的降噪方法主要是对错误标注样本进行抑制或直接剔除,然而并未考虑到充分利用样本本身的有效语义。虽然远程监督在一定程度上能缓解数据匮乏的问题,但仍然有大量长尾的关系类别不具备足够的样本。并且客观世界是不断发展的,新出现的关系往往也只有极少数样本。而小样本学习范式致力于让模型基于少量的训练样本取得同等的泛化性能。然而现有的基于度量学习的方法存在着明显的局限性:一是模型未明显区分相同类内和不同类间的样本关联的差异性,导致样本交互不合理、不充分;二是由于语言具有多样性,少量样本具备的语言特征不明显,表达能力不充足,导致模型难以作出可靠的度量与分类。针对以上存在的问题,本文针对数据受限下的关系抽取任务展开了研究,主要工作有:从数据增广的角度,提出了一种基于强化学习和半监督学习的关系分类模型。该模型能够通过强化学习鉴别远程监督标注的带噪音数据集中的样本是否标注错误,把正确标注和错误标注的数据分别当作有标注数据和未标注数据,再通过半监督学习训练关系分类模型,以此达到修正错误标注数据,充分利用噪音的目的。从样本交互的角度,提出了一种多层交互的原型网络模型。该模型对相同关系类别内所有样本进行传递与聚合,得到融合了类内样本信息的原型表示。然后对不同关系类别的原型进行传递与聚合,捕获类间样本信息。通过多层迭代增强样本之间的交互,更深层次地学习到样本之间丰富的关联信息,从而提高模型性能。从外部知识引入的角度,提出了一种知识感知的原型网络,在原来的原型网络基础上,引入实体描述和关系描述等外部知识,关系描述一方面解释了属于该类关系的样本上下文所具备的语义,另一方面也说明了属于该类关系的实体对所具有的特有属性。利用关系描述同时提取样本上下文和实体描述中重要的信息,增加了样本特征信息量,提高了样本的表达能力,使其得到更可靠准确的度量和分类。本文围绕关系抽取任务面临数据受限的挑战延伸出来的相关问题展开研究,从不同的角度基于合理的研究动机提出改进模型,并在相应的数据集上进行严谨实验和分析比较,证明了所提模型的有效性。
其他文献
高数据速率和高可靠性已经成为当前无线通信系统的基本要求。针对频谱资源短缺的现状,毫米波的提出和使用大大缓解了频谱压力。毫米波频段上丰富的频率资源可以满足高数据速率传输的需求,但其带来严重的路径损耗成为迫切需要解决的问题。大规模天线技术在增加系统容量的同时,可以有效提升传输链路质量。基于大规模天线阵列的混合波束赋形技术可以实现高增益的定向波束,故有效的波束选择算法将为毫米波系统带来很大性能增益。无线
耕地是社会的重要资产,它影响着国计民生。对耕地质量进行定级,是土地管理中最为重要的部分,是国土、农业、林业等各部门工作能够顺利进行,是国民经济能够顺利开展的基础。充分了解所有耕地的实际质量与位置,能使土地资源的使用更加高效,也能更充分发掘出所有耕地的实际潜力。目前我国人地矛盾十分尖锐,推进耕地质量定级,充分发挥所有耕地的能力,既能进一步促进“三农”问题的解决,又能为建立基本农田保护制度、推动土地征
中国是茶叶的故乡,中国人自古以来就有制茶、饮茶的习惯。近年来,中国茶叶的内销量和出口量逐年上涨,茶叶带给人们的经济效率也迅速增加。目前,国内的茶叶采摘方式主要是人工采摘为主,机械采摘为辅。人工采摘费时费力效率低下,并且由于农村大批劳动力涌入城市务工,在采茶期没有足够的劳动力进行采茶工作,导致了部分茶叶错过采摘最佳时期,甚至无人采摘,给茶农造成了经济损失。现有的机械采摘虽然效率高,但是采摘时缺乏选择
习近平《论中国共产党历史》是一部重要的党史著作,不仅阐述了党史是"最好的教科书""最好的营养剂""最好的清醒剂",阐述了在中国特色社会主义进入新时代的历史条件下,开展党
随着社会经济不断增长,市场化改革力度持续加大,电力企业在市场大潮流下经过改革与创新,获得了空前的发展。我国电力事业进行市场化改革已经有很长一段时间,但在改革中仍存在很多难点和问题,这些问题阻碍了电力市场化的进一步深化改革,阻碍了电力事业进一步发展与进步,因此要创新改革思想和改革理念,积极采取措施解决改革中出现的问题,电力行业关系民生的基础行业,它的改革方向对整个国民经济命脉有着很大的决定性作用,研
Ⅳ-Ⅵ族半导体锡-硒材料体系的研究可以追溯到二十世纪五十年代。近年来研究报道在硒化锡(SnSe)单晶发现超高的热电性能,使得这些材料成为热电研究领域的热点。大量的理论和实验工作从热输运和电输运等方面研究了p型SnSe晶体超高热电性能的物理机制,加深了对层状半导体SnSe材料的理解,也促进了热电理论的发展。从目前的文献调研来看:不同课题组利用不同方法制备出的SnSe的电/热输运性能有很大的差别,对S
水体富营养化会导致蓝藻水华的大规模爆发,而微囊藻是最常见的蓝藻之一,抑制蓝藻、控制水体富营养是水体修复研究的重要领域和研究热点。本研究在对武汉地表水体富营养化及周边环境调研的基础上,选取武汉地区水华优势藻类惠氏微囊藻为实验藻种,探究了光照、pH值、氮磷比、氮、磷等环境因素对其生长的影响,并选取樟树、构树、柳树等三种树叶的蒸馏水浸提液进行了抑藻效果研究,最后结合扫描电镜(SEM)、液相色谱(HPLC
近年,随着能源、分子探测等领域对高电导率金属氧化物研发的重视,二氧化钼(molybdenum dioxide,MoO_2)作为一种具有完整配位的金属性氧化物材料而受到关注。初步研究表明二氧化钼具有较高的化学稳定性(不溶于强酸和强碱)、较好的抗氧化性和高导电性,使得MoO_2在储能材料电极、催化剂及表面增强拉曼散射领域存在潜在的应用前景。尤其是,MoO_2作为一种稳定且具有高浓度自由电子的金属氧化物
盗窃罪是古老而又多发的犯罪,可以说盗窃这种行为应该是伴随着人类发展的历史过程,经过实践的发展,慢慢地形成了系统的概念,并逐步发展完善。在我国,有关盗窃罪的立法和司法解释在与时俱进,学术界和司法实务界对盗窃罪有关规定的争论也一直在持续。《刑法修正案八》确定了现阶段我国盗窃罪的定罪模式,即将多次盗窃、携带凶器盗窃、扒窃、入户盗窃四种行为方式与数额要求并列作为盗窃罪的罪状,这是盗窃罪发展史上的一个重要变
2013年,中国国家主席习近平先后提出了“新丝绸之路经济带”和“21世纪海上丝绸之路”的合作倡议,后简称“一带一路”倡议。“一带一路”倡议自提出以来就得到了中国国内和国际社会的广泛关注,其在经济、政治、文化等领域所取得的成果备受瞩目,已然成为代表中国国家形象的“名片”。本文以美国两大主流报纸《华盛顿邮报》和《纽约时报》的官网报道为研究对象,探讨西方媒体关于“一带一路”倡议的报道策略,以及对我国对外