面向关系抽取的深度特征工程方法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:AEXSN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取旨在从文本中抽取已知实体之间的语义关系,并形成如{实体1-关系-实体2}形式的结构化三元组。句子级关系抽取中通常文本较短,其语法结构和语义信息完整性较低,存在严重的特征稀疏问题,很难从原始文本中获取足够的分类特征对实体关系进行良好建模。此外,由于关系实例文本通常包含多个实体对,目标实体对的位置、语义、结构等信息的缺失使得神经网络学习关系表示时受到“干扰实体对”的影响,难以对目标实体对精准定位,对以实体对为中心的句子结构信息和语义信息获取不足,造成错误识别。当前特征工程和神经网络是关系抽取研究中主要的研究方法,针对特征工程方法可通过人工构建的有效特征将先验知识引入模型,神经网络方法可自动从原输入文本中提取抽象特征等特点。本文提出深度特征工程方法,旨在将二者的优点在关系抽取任务的研究中进行结合,主要工作如下:(1)提出结合实体特征的深度关系抽取方法:传统基于神经网络的关系抽取方法以原文本作为模型输入,无法获得关于目标实体对的位置及语义信息的问题。本文利用实体特征锁定目标实体对,同时结合预训练语言模型(Bidirectional Encoder Representation from Transformers,BERT)与卷积神经网络(Convolutional Neural Networks,CNN)构建了BERT-CNN模型,结合实体特征获取以目标实体对为中心的句子结构特征和实体语义特征。实验结果表明该方法在ACE 2005中文、ACE 2005英文和CLTC三个数据集上分别提升关系抽取性能3.7%,5.0%,和11.2%。(2)提出结合复合特征的深度关系抽取方法:特征工程方法无法自动获取抽象语义特征,传统神经网络对句子结构特征把握不足,结合特征工程与神经网络构建神经化特征融合模型,设计多种复合特征,并在不同类型的复合特征上采用相应结构的神经网络提取抽象语义特征和句子结构特征。实验结果表明该方法在ACE 2005中文和CLTC两个数据集上分别提升关系抽取性能8.0%和16.5%。
其他文献
烟草是一种对光照和温度要求都非常严格的喜光喜温作物,为了降低烟草品种对光照和温度的敏感性,扩大烟草品种的光温适应范围和种植区域。本研究克隆了烟草光敏色素(NtPHYs)基因,采用生物信息学分析的方法预测了NtPHYs基因在烟草上的功能,利用CRISPR/Cas9基因编辑技术创制了基因敲除突变体,分析了NtPHYs基因对烟株生长以及对烟草种子和烟苗光温敏感性的影响。主要结果如下:1.推测烟草NtPH
凤仙花属(Impatiens)种类繁多,具有花形奇特、花色绚丽丰富、花期长、适应性强等特点,是优秀的野生观赏植物种质资源。中国是凤仙花属植物分布中心之一,拥有极其丰富的野生凤仙花属植物资源,而贵州是该属在中国的主要集中分布地区之一,但至今未有较全面的凤仙花属植物资料,许多凤仙花几乎处于野生状态,其观赏价值长期没有得到系统的研究和开发利用。本研究对贵州野生凤仙花属植物种质资源和地理分布格局进行了调查
绝缘栅双极型晶体管(Insulated Gate Bipolar Transistor,IGBT)是性价比高于功率MOS和BJT的高压大功率半导体器件,目前在中、大功率应用场合被广泛使用。由于其在开态时对漂移区具有电导调制效应,这类器件能够同时实现高耐压和低导通损耗。但是,IGBT器件在关断时漂移区中存在少数载流子的反抽和复合过程,会导致关断能量损耗较高。所以,改善正向导通电压和关断能量损耗之间的
光纤激光器由于其本身具有的多种优势,被广泛运用于切割,焊接,熔覆等加工制造领域,同时,各领域需求的增加也促使其输出功率被不断提高。然而,这也随之引发了一系列的问题,一方面,光纤包层中将产生过多的残余光,影响了输出光束质量,甚至损害激光器,另一方面,输出光纤端面的功率密度过高,造成输出端面的烧毁。为了解决上述问题,常在激光器输出端加装传能光缆组件,用来滤除包层中的残余光,同时降低输出端的光功率密度。
数控机床加工过程的智能监控是高端装备智能化的关键技术之一。它不仅能减少因加工异常而造成的零件、刀具和机床的损坏,而且可以通过自动调节加工参数、对机床进行远程集中监控管理以提高生产和管理效率。随着制造企业向智能制造不断转型升级,其对数控机床加工过程监控系统功能的丰富性、性能的实时性和可靠性提出了更高的要求。基于此,本文开发了一套基于边缘计算的可用于多场景、开放式、实时性和可靠性较强的数控机床加工过程
随着实时ETL、复杂实时事件处理(CEP)以及实时统计分析等实时场景不断增多,为流计算的发展奠定了基础。上一代Hadoop生态的数据处理系统大多是针对离线计算场景,其系统设计已经无法应付实时计算的业务。所以论文提供了专门针对实时场景的基于Spark的流计算系统,该系统能满足大多数的实时场景,已经在多个生产环境得到应用。论文实现了基于Spark的分布式流计算系统,该系统以Spark任务调度引擎、执行
公民参与权是宪法规定的基本权利之一。城市更新公民参与权是宪法权利在城市更新领域的衍生权利,是城市更新过程中公民合理维护自身权利的保障,可以具化为知情权、参与权、监督权、获得救济权等。可通过赋予公民城市更新参与权、加强公民参与城市更新意识、提升公民参与城市更新能力、保障公民城市更新参与权效力、拓宽公民城市更新参与权救济途径等方式,维护公民的合法权益,实现城市更高质量发展。
MEMS加速度计因其体积小、功耗低及灵敏度高等优点被应用在医疗、电子消费、汽车自动驾驶及航天航空领域。加速度计是由传感器及其接口读出电路组成,那么研究传感器结构及接口读出电路的设计对系统的性能至关重要。本文提出了一种电容式传感器及其闭环反馈接口读出电路,对此加速度计进行了结构设计、工艺设计及电路设计,并对此加速度计做了建模仿真分析以及版图验证测试等研究工作。通过对多种弹性梁结构的分析及本课题的需求
表面等离子体激元(Surface Plasmon Polaritons,SPPs)作为一种在金属与介质交界面传播的表面波,有着良好的局域限制能力,但只能在光以及更高频段才能被有效激发。人工表面等离子体激元(Spoof Surface Plasmon Polaritons,SSPPs)的提出将SPPs延伸到太赫兹以及微波等低频段,这可以通过设计金属表面几何形状来控制SSPP传播的截止频率来实现。基于
随着复杂网络的发展,网络病毒已经成为影响网络空间安全的关键因素。网络系统的安全态势感知、病毒传染的动力学模型及其控制问题作为当前研究的热点,关系着系统的安全与发展,有着重要的研究价值与意义。本文针对安全熵对网络安全态势的评估问题、病毒传播模型的安全稳定性问题和控制问题进行了研究,主要内容涉及基于不安全熵的网络安全态势感知模型、基于安全熵的SLBRS网络病毒传播模型和复杂网络病毒的反馈控制模型三个方