基于门控和类型注意力机制的关系抽取模型研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:cyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的快速发展,非结构化的文本数据快速增长,如何高效精准地定位关键词,成为了我们探索的一个重要科研方向。作为信息抽取的主要研究方向,关系抽取正在知识图谱、网页搜索等方面发挥着巨大的作用。得益于启发式的远程监督方法,远程监督关系抽取可以在无需人工帮助的情况下自动识别实体对关系。随着机器学习和深度学习的快速发展,关系抽取利用卷积神经网络提高了预测的准确率。尽管如此,现有的模型依然存在以下问题:卷积神经网络可以抽取到文本单词近距离的信息,却无法获取上下文中的长距离依赖信息;Transformer可以有效地整合全局语义信息和本地语义信息,但忽视了和上下文中平均语义之间的关系;即使不同的实体拥有相同的类型,模型应该使用不同的权重表示实体类型,强调重要的类型对当前实体的贡献。针对如上提出的不足之处,本文贡献了以下创新点:(1)提出了将线性衰减实体和门控Transformer相整合的模型该模型除了使用传统的词向量和位置向量作为输入向量,还为每个单词添加了线性衰减向量,使得每个输入向量在考虑词/位置向量的同时,兼顾了每个单词和实体对之间线性衰减关系,而线性衰减关系则和单词与实体对之间的距离成负相关。在使用Transformer有效地结合全局和本地语义关系的同时,引入了门控的概念,使得Transformer也注重了平均语义信息。本模型使用句子层级和包层级的注意力机制,自动地降低了错误数据对模型准确率的影响。在通用数据集上的实验结果表明,该模型可以较好地进行关系分类,精确率和AUC值优于大多数使用Transformer的模型。(2)提出了基于动态权重的实体类型模型该模型引入了额外的先验知识,通过动态权重的注意力机制,提取出每个实体独一无二的特征向量。实体的类型可以有效地缩小关系抽取结果的范围,但是平等地对待每一种类型并不能发挥实体类型的最大效果。该模型使用注意力机制,动态地计算每个类型权重,得到每个实体对应的类型特征向量。根据实验结果,我们可以得出:基于动态权重的实体类型可以进一步提升模型的AUC值。
其他文献
细颗粒物(PM2.5)是我国现阶段城市空气质量的首要污染物。2013年我国正式开展了全国范围内的环境空气质量监测的相关工作,为国内外学者研究PM2.5时空浓度变化以及影响因素提供了宝贵的监测数据,进而为揭示PM2.5成因机制及其防治措施提供科学参考。我国的空气质量监测点(简称国控点)的观测数据具有精度高、时间序列长,监测项目多等优点;但由于点位的建设与管理受到人力物力财力等因素的限制,导致其代表的
利用自动化项目生成技术来产生项目是应对计算机自适应测验背景下题库建设需求的有效方式之一。项目生成的关键是要得到从项目刺激特征预测心理测量学指标的项目生成算法。在前人研究的基础上,本研究将元素属性变化和干扰项的设计特征纳入到矩阵推理测验的项目生成算法中,并以此为基础编制了 40个矩阵推理项目来系统地考察规则、元素属性变化和干扰项的设计特征对项目难度的影响。对项目生成算法的进一步优化将在算法方面给自动
随着中考的改革,英语教学的方式和核心也在发生转变。上海的初三学生在毕业时,需要掌握和综合运用至少1600个英语单词以及固定搭配。此外,学生还需要了解单词的一词多义现象和掌握其在特定语境中的意义。因此,初中英语词汇教学要将重点放在教授学生掌握核心词汇的含义和用法,并灵活地结合语境对目标词汇进行恰当的运用。然而,当前的词汇教学多数依旧采用传统的一言堂模式,即教师上课讲授,学生机械操练记忆。传统的词汇教
机器阅读理解是衡量机器对人类语言理解程度的重要手段,也是实现人工智能的关键一步。近年来,机器阅读理解已经在搜索引擎和智能对话中有了很好的应用。多轮机器阅读理解是机器阅读理解和多轮对话的交叉,机器需要阅读文档回答多个相关联的问题。这种形式更符合人类获取信息的一般方式,因此近年来多轮机器阅读理解受到学术界和工业界的广泛青睐。Qu AC数据集是经典且具有很大挑战的多轮机器阅读数据集,目前机器在这个数据集
在大数据和深度学习发展的推动下,文本图像识别对人们的日常生活产生了重要的影响。本文围绕文本图像识别任务,在基于编码器-解码器的文本图像识别模型的基础上进行研究并加以改进。具体来说,在编码阶段分别采用基于注意力机制的特征提取模型和基于时序卷积的模型来完成视觉特征的提取和特征序列的建模;采用基于多层次特征的聚合机制来聚合不同层次的信息;解码阶段利用启发式局部注意力机制完成字符序列的解码。首先,文本图像
学位
学位
2018年初《普通高中生物学课程标准(2017年版)》正式公布,新一轮的基础教育课程改革在借鉴国外成功经验的基础上,研制了我国高中生物学课程设计的宗旨——生物学学科核心素养。这样的教育目标体现了国家意志和社会发展对生物学科培育人才的价值需求,也是学生在学习生物学的过程中需要逐步形成的生物学观点、思维方式和解决人类生活问题的技能。如何在将核心素养渗透到课堂教学中,实现新课标的要求和学科的育人价值,是
近年来,闪存存储设备凭借其高性能和低功耗等诸多优势,被广泛应用于个人电脑、服务器、数据中心、移动设备中,是一种非常有前景的存储设备。然而,闪存存储设备拆解和开发难度大、成本高,想要通过真实设备进行学习和研究都非常困难。仿真是一种经济便捷的替代方式,目前学术界已经有多款功能强大的闪存存储设备仿真软件。然而这些仿真软件都是为专业人员设计的,主要用于研究,软件的使用需要建立在熟悉闪存存储设备的基础上,学
环境感知是工程车辆智能化的基础,检测路面的障碍并进行尺寸估计有助于规避潜在的危险,降低事故的风险。基于激光雷达的三维目标检测技术已日渐成熟,然而激光雷达昂贵的价格限制了相关技术在实际工业生产、生活中的落地。针对此问题,论文提出使用常见的单目摄像机替代昂贵的激光雷达。首先通过构建自监督的单目深度估计模型预测深度图,然后将其转换为伪点云,最后基于伪点云实现道路障碍的检测与尺寸估计。针对深度估计和伪点云