【摘 要】
:
实体关系抽取技术是自然语言处理领域中的一个基础任务。主要体现为关系抽取是知识图谱,智能问答的上游任务,能够为其提供结构化知识,语义理解和关系推理等支持。有监督的关系抽取任务是依赖大规模数据集完成的,但大型数据集的构建费时费力。虽然基于远程监督的关系抽取模型能够将知识库与非结构化文本对齐来自动生成大量训练数据,减少模型对人工标注数据的依赖;但是同时也会引入大量噪音,引入误判。所以在关系抽取任务上,少
论文部分内容阅读
实体关系抽取技术是自然语言处理领域中的一个基础任务。主要体现为关系抽取是知识图谱,智能问答的上游任务,能够为其提供结构化知识,语义理解和关系推理等支持。有监督的关系抽取任务是依赖大规模数据集完成的,但大型数据集的构建费时费力。虽然基于远程监督的关系抽取模型能够将知识库与非结构化文本对齐来自动生成大量训练数据,减少模型对人工标注数据的依赖;但是同时也会引入大量噪音,引入误判。所以在关系抽取任务上,少样本学习进入到研究者的视野中。其中,原型神经网络属于少样本学习的一种方法,该方法主要包含三个关键步骤:特征抽取;原型点选择;距离度量。我们以原型神经网络为基础,从特征抽取与原型点两个步骤选择出发,提出了以下三种解决关系抽取问题的方法:1)提出融合深度卷积神经网络的少样本关系抽取方法。深度神经网络相比于普通的神经网络包含更多的隐藏层,能够更好的对句子向量中的文本信息与位置信息进行提取,使特征向量更加丰富。我们提出了一种融合了深度卷积神经网络的少样本关系抽取方法。该方法用深度卷积神经网络代替了普通的单层卷积神经网络,实验结果说明,该方法能够在一定程度上对原型神经网络进行优化。2)提出融合注意力机制的原型点选择方法。原型神经网络中,使用取均值的方法用来选择原型点,这种方法是静态的、固定的。这种方法可能会丢失句子层次上的一些信息,降低整个模型的性能。我们提出了两种融合了注意机制的动态原型点选择方法,弥补了原型神经网络的不足。该方法可以动态准确地选择原型,考虑更多语义信息,进而提高准确性,是一种动态选择原型的新策略。3)提出融合深度神经网络与注意力机制的中文关系抽取。现有关系抽取数据集大多都是英文的,中文的关系抽取数据集比较匮乏。首先,我们构建了一个关系抽取的汉语数据集。随后,我们对前面所述的两种方法加以融合,编码层使用深度卷积神经网络进行特征抽取;原型点选择融合注意力机制。最后使用我们的中文数据集对该模型进行训练,让关系抽取工作在中文领域更好的结合实际需要,体现出了关系抽取在自然语言处理领域的实际意义。本课题以少样本关系抽取中的原型神经网络方法为基础,在原型神经网络的不同环节做出改进,最后将所有创新融合起来。循序渐进的解决不同发展脉络中遇到的关键问题,为关系抽取真正的应用于实际生产打下了坚实的基础。
其他文献
自我国不良资产行业1999年成立第一家资产管理公司起,不良资产的规模日益增大,截至2019年二季度末,我国各类银行的总计不良贷款余额为2.2万亿,相比2018年末增长了0.2万亿元,同时,影响范围也由原来的银行业扩大到上市公司以及其他非银行金融机构。在我国金融去杠杆以及经济增速放慢的两大压力下,市场风险日益暴露,表现为银行不良贷款增高、资本市场债务违约、商誉减值、业绩“爆雷”、股权质押等,集中产生
光伏扶贫新思路是国家支持贫困县发展的重要举措之一。长阳县作为国家级贫困县,在国家脱贫攻坚号召下,制定多项战略进行脱贫致富,其中光伏扶贫就是其中关键的一项。光伏发电属于一种绿色环保型的项目,相对于其他扶贫项目而言,在保护当地环境的前提下,收益更为稳定,能够给长阳县贫困居民带来更多的效益,从而实现绿色脱贫目标。国网长阳县供电公司是承担光伏扶贫项目的重要主体,加上政府及当地居民支持,光伏扶贫项目能产生较
王塘南是阳明后学的杰出代表,也是江右王门主静思潮的集大成者。塘南认为“知道者以性为宗”,故其学以“透性为宗,研几为要”。他在坚持阳明“即体即用”原则的同时也贯彻了主静思潮“致虚守静”、“用工夫以复本体”的独特学路,不仅对治了“见在良知”说的流弊,也补救了聂双江“寂感二分”、“格物无工夫”的疏漏,使江右王学达到了一个新的高度。因此,研究和梳理王塘南思想对理解江右王门主静思潮、晚明王学的发展乃至明清之
连续玻璃纤维增强热塑性管道是以玻纤带作为增强层、以高分子聚合物作为基体材料的新型复合管道,它实现了两种材料特点的融合,具有生产成本低、耐腐蚀性好、耐压能力强、铺设方便及使用寿命长等优异性能。该新型复合管道可实现盘卷,施工方便,在油气输送等领域能够发挥出重要作用,具有较大的市场应用空间。PVC-RTP又称连续玻璃纤维增强热塑性聚氯乙烯复合管,是以改性聚氯乙烯(PVC)为基体材料,以本课题组研制的连续
“富煤少气”是我国的现状,实现煤炭资源转变为天然气是符合我国能源战略要求的,而作为煤制天然气关键步骤的甲烷化一直是研究热点。传统固定床存在反应器散热困难、受热不均匀等问题。而流化床反应器具有较高的热容量,在反应过程中床层温升小,适用于甲烷化反应。本文基于CPFD方法对流化床反应器内的整体流动规律、传热及甲烷化过程进行了研究。首先针对流化床反应器,基于CPFD数值模拟方法建立了流化床模型,深入研究了
信息技术是人类历史上发展最快,应用最广泛的高新技术。信息技术是最强的“催化剂”,它对传统产业进行了优化和改造,有效地提高了传统产业的生产率,并优化了产业结构,促进了工业结构向高科技的快速过渡。随着经济的飞速发展,竞争日益激烈,各个行业、企业都在向信息化、自动化运营发展模式转型。ZM公司作为早期煤炭行业的重点企业,也面临传统产业的优化转型,信息化发展也变得更加重要。ZM公司应做好信息化发展战略规划,
目的探讨CT增强对胆囊癌淋巴结转移的诊断价值。方法回顾性分析28例胆囊癌患者的CT影像及病理资料,记录病灶及淋巴结的CT表现特征,对转移与非转移淋巴结的长径、短径、长径/短径采用独立样本t检验,对于其他胆囊原发灶的表现情况(胆囊癌形态、病变位置、胆管有无扩张、T分期、有无肝床转移)及淋巴结特征(淋巴结的形态、强化方式)进行卡方检验或Fisher精确检验,将人口学特征(年龄、性别)及其他相关因素进行
新疆哈密是大规模可再生能源电力传输至内地的重要枢纽地区,独特的地理环境使得哈密地区风、光等自然资源极其丰富。目前哈密地区风电场与光伏电场规模位居世界前列,其规模还在持续增长。哈密地区电能通过大容量、长距离输电的形式输送至内地,高压直流线路相较于交流线路在电能损耗与投资成本上更具有优势。由于哈密地区独特的地理环境,火电厂与水电厂相对较少,使得哈密地区中新能源电场的无功调节措施,主要通过加装电容器以及
在世界纯电动汽车的发展浪潮下,中国纯电动汽车产业蓬勃发展。一方面得益于国家政策的引导和推动,另一方面受益于各项关键技术的相继突破。但是随着新能源汽车补贴逐步退坡以及动力电池技术短期内仍无法突破瓶颈的发展状况,中国纯电动汽车行业将步入技术挑战、动力转换、结构调整的新阶段。整车控制器作为纯电动汽车最为核心的部件之一,其控制策略的优劣是决定整车性能的重要因素。而驱动控制策略又是整车控制中最基本也是最重要
众所周知,持久性的应激暴露是引发焦虑症等精神疾病的重要原因。这与其导致大脑杏仁核区过度兴奋密切相关。近年的研究已充分表明,杏仁核内的投射神经元在基因表达、结构连接以及生理功能等方面表现出高度的异质性。不同投射神经元通过与不同脑区形成突触联系,并在杏仁核的相关功能中发挥不同乃至截然相反的功能。揭示不同类别杏仁核神经元在焦虑症等精神疾病发生中的作用及具体机制,对于全面了解疾病的发病机制、乃至开发高效精