基于深度学习的远程监督关系抽取方法及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:chenfengling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取是自然语言处理领域中的基础任务,目的是获取句子中的三元组信息,用于信息检索、知识问答等下游任务。基于监督学习的关系抽取方法需要人工构建的数据集,构建过程需要耗费巨大的人力和时间成本。为实现关系抽取自动化,学者们提出了远程监督方法,基于已有的结构化信息和语料集自动生成关系抽取数据集。虽然远程监督有效地解决了人工标注的成本问题,但因其数据集构建时伴随强约束性假设导致错误标注不可避免,而公开域的数据来源也使数据集具有严重长尾现象,所以远程监督关系抽取任务依旧存在不少挑战。因此本文研究重点在于构建多效的远程监督关系抽取架构,以弱化长尾现象和错误标注问题对模型分类能力的负面影响,主要内容包括:(1)在At-Least-One假设的基础上,提出了融合长尾数据增强和超包表征的远程监督关系抽取架构,以缓解错误标注问题和长尾现象对关系抽取模型的负面影响,提高模型的分类性能,该架构包括面向长尾关系的数据增强方法和基于深度聚类的超包级远程监督关系抽取模型。(2)针对数据集长尾现象,通过分析数据集,并研究其示例分布情况,本文提出了一种可插拔的面向长尾关系的数据增强方法,以缓解数据集中严重的类别不平衡问题,显著提升了模型在长尾关系上的分类准确性。(3)针对错误标注问题,通过分析现有算法的局限性,本文提出了基于深度聚类的超包级远程监督关系抽取模型。在基于包表征的算法上进行改进,引入深度聚类模块构建超包,减少噪声数据对模型的负面影响,有效提高模型的鲁棒性和性能。(4)基于远程监督的智能标注系统的实现,在标注系统中搭载本文提出的远程监督关系抽取模型,通过智能的预标注环节,缩短了单次标注的操作路径,提高了标注人员的工作效率。
其他文献
大规模天线阵列是5G(第5代移动通信)网络宏覆盖的主流形式,典型采用至多192个辐射单元形成64TR(3单元合成为一路子阵输出)通道,以满足网络覆盖的电性能需求。然而,过多的64收发通道数量带来基站主设备成本和尺寸以及长期应用中的功耗和散热等难题,影响了5G的应用进程。通过引入移相器使之简化为32TR,以及将主设备端的32路滤波器前移到天线端,将化解以上难题。因此,研究具有移相和滤波功能的32TR
副溶血性弧菌、沙门氏菌等致病菌是水产品及禽肉造成集体食物中毒事件的主要致病菌,本文对水产品中五种致病菌及禽肉中两种致病菌进行了检测分析,并从中分离了60株副溶血性弧菌分离株及40株沙门氏菌分离株进行生化鉴定和血清分型,检测了分离株毒力基因的携带情况。以氨苄西林等20种抗菌药物对分离株进行药敏试验,分析其耐药情况。研究结果可为水产品及禽肉监管提供相关理论依据。1、本研究对采集自南方某市水产市场的水产
中国大陆西南沿海的湛江地区属于我国传统多雷区,在夏季雷雨季节,由于雷击造成的10kV架空线路跳闸、设备损坏等故障时常发生,给供电可靠性造成影响。10kV配电网络在电压等级上划分为中压,主要由10kV配电线路以及变压器、断路器等设施构成,担负着将变电站电能输送并转换为社会生产生活所需用电的重任。随着湛江经济、社会发展,用何种措施能减少该地区中压线路遭受雷害从而提升供电可靠性,具有实际研究意义和应用价
近年来,逐渐出现将换热管埋在地下结构中的情况,地埋管和地下结构共同形成地下热工结构,地下热工结构在地热能交换的过程中,温度场的改变会导致土体应力场的改变,从而导致土体力学特性的变化,接触面的力学特性就变得更加的复杂。能够清晰了解温度作用下接触面上的受力状态、变形机理及其剪切破坏形式,对土体与结构接触面的研究是至关重要的。本文在自主改进的温控直剪设备基础上,以纯砂、膨润土、天然砂土和混凝土试块为研究
点对多点微波通信系统是扇形天线的主要应用场景之一。与光通信不同,点对多点微波通信系统在企业专网、海岛通信、郊区住宅宽带接入等领域有着独特的优点。通信枢纽站(HUB站)是点对多点通信系统的核心所在,相比终端站点使用的天线,枢纽站对其使用的天线要求比较高,特别是对它的方向图的要求很高,这个跟枢纽站的组网方案和抗干扰要求息息相关。扇形天线的技术标准规定了天线的最小增益、半功率波束宽度、方向图包络等参数要
由于现代人口老龄化和交通事故等问题,骨肿瘤以及交通事故导致的大段骨缺损等疾病急剧增加,迫切需要开发具有高效骨整合能力的植入材料。钛基植入体具有良好的机械性能和优异的生物相容性,临床应用面广、市场需求量大。对钛基植入体进行表面改性可提高植入体界面处的骨整合的效率,然而,骨组织主要由具有压电响应及微纳结构的胶原纤维结构组成,骨细胞存在于骨组织的生理微环境中。研究证实,通过模拟骨组织弹性模量及拓扑结构达
随着莲种植面积的稳步增长,莲及相关产品的产业化发展越来越成熟。莲蓬作为莲产业中的一种副产物,由于不可食用,多被当作废料丢弃。研究表明莲蓬富含多酚类物质,包括原花青素、槲皮素、金丝桃苷和山奈酚等。本研究以莲蓬为原料,提取并纯化了莲蓬多酚,对其抗氧化、抗糖化和抗炎生物活性进行评价,探究其在月饼中的应用情况,拓宽了莲蓬多酚在食品中的应用领域。主要研究结果总结如下:(1)通过单因素实验和响应面试验获得莲蓬
TP53是细胞内重要的抑癌基因,该基因通过表达p53蛋白参与细胞周期、凋亡、代谢的调控,对肿瘤生长起抑制作用。相关研究表明,超过50%肿瘤中存在TP53基因突变,表达的突变p53蛋白异常稳定地大量积累在肿瘤细胞中。在大多数情况下,突变p53蛋白失去了与其靶基因DNA结合序列相互作用的能力,因而不能激活p53抑癌功能。在某些情况下,突变后的p53蛋白可以获得新的功能,从而促进肿瘤的生长。现阶段针对含
深度学习为机器解决复杂问题提供了一种高效的方法,并被广泛应用于模式识别、自动控制、信号处理等领域。尽管深度学习中包含的卷积神经网络有着强大的性能,但是随着网络深度的不断扩展,出现了网络层次复杂、数据量庞大、数据存储密集等问题,对运行设备提出了较为严苛的要求,制约了卷积神经网络在嵌入式系统中的应用。FPGA的可编程性缩短了设计时间,也便于后期的维护,其并行性使得电路运行速度更快、带宽更高,能够满足卷
作为人工智能领域下的分支,机器博弈是检验其发展水平的重要研究方向,一直以来受到了众多研究者的关注。然而,传统的机器博弈方法只能解决解决状态空间小且复杂程度低的问题,如国际象棋和西洋双陆棋。近年来,得益于深度学习的发展,以深度强化学习算法为代表的机器博弈方法得到了长足的发展,并在具有高维状态空间、复杂程度高的游戏上取得了一系列里程碑式的研究成果,例如击败顶尖围棋选手的Alpha Go、战胜Dota职