基于深度学习方法进行因果关系抽取的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:isc70279
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理(NLP)中,因果关系抽取是信息提取和知识发现的重要任务。因果关系在问答、决策制定和知识发现等领域都有着广泛的应用,人们可以从多个数据源,如网页、在线期刊、电子病历中抽取因果关系,建立相对应的因果链,为相关的研究提供参考。由于自然语言文本的模糊性和多样性,因果关系抽取仍然是一个难以解决的NLP问题。传统因果关系抽取方法是使用自然语言处理工具进行特征提取后依赖机器学习相关的分类器进行因果关系抽取。但是,这些方法严重依赖词性标注、句法解析等自然语言处理方法提供的分类特征,同时也严重依赖知识库。而自然语言处理标注工具往往存在大量错误;知识库的完备性也不能达到完美。这将导致某些错误会在因果关系抽取系统中不断传递和放大,最终影响因果关系抽取的效果。近些年来,深度学习在自然语言处理中得到了越来越广泛的应用,由于卷积神经网络和循环神经网络能够很好地从句子中提取到全局和局部的特征,所以在关系抽取,机器翻译,句子分类等基础任务中取得了很好的效果。因此本文主要利用卷积神经网络(CNN)和循环神经网络的改进版GRU(Gate Recurrent Unit)来进行因果关系抽取。本文的主要内容如下:1.使用新的词向量模型ELMO来预训练词向量,并提出了两种深度学习模型:基于多注意力机制的卷积神经网络模型(MUL-PT-CNN)和基于实体感知多注意力机制的双向GRU网络模型(MUL-ET-BGRU)。2.在训练神经网络时,使用的损失函数并不是传统的交叉熵损失函数,而是使用基于间隔的排序损失函数,增大样本中分类正确的得分,减小得分最大的分类错误的得分。3.本文的数据集构建分为两部分:第一部分是是使用SemEval-2010-Task8中的因果关系数据和非因果关系数据;第二部分是使用部分非公开的Altlex因果关系数据集。我们结合了这两种数据集的优缺点,对这两种数据集中的数据格式进行改进,合并,纠错,构建了本文较为精确的有监督因果关系数据集。实验结果表明,本文提出的两种模型在因果关系抽取中取得了良好的效果。
其他文献
四川音乐学院师范系理论作曲专业的84级学生由青年教师李何带队,于去年秋深入到云南、四川等地实地采风(详见本期内页甄志平文)。
本文分析了多媒体课件的制作与使用中所存在的问题,提出应当在多媒体课件制作上下功夫,提高课件质量;应当合理组织课堂教学,将课件讲授与传统教学方法相结合,提高多媒体课堂教学效
企业管理的发展会经历从无序化到有序化,从有序化到整合化,从整合化最终到卓越化,而在这之中卓越管理理论是提升企业管理水平的有力利器。
随着水泥稳定碎石或砂砾在等级公路路面基层(底基层)的广泛应用,通过对天然砂砾土及其混合料的试验研究,结合工程实例,分析了天然砂砾土在等级公路路面底基层中的成功应用,阐述了一
黑麦属蕴藏着丰富的遗传变异和改良小麦品质的优良基因,将其导入小麦能够拓宽小麦的遗传基础、丰富小麦的遗传变异。研究采用分子克隆技术获得黑麦CenH3基因的部分片段,并进
密码技术的发展和密码算法标准的推广,促进了信息文档流转及智能办公等重要信息文档管理在政府和企事业单位的应用,提高了社会效率。但是,因密码方案底层架构设计不严密、系
十年树木,百年树人。随着我国进入全面建设小康社会的历史发展阶段,以培养素质技能作人才为目标的技校班主任工作面临许多前所未有的挑战。作为学生健康成长引领者的班主任,工作
目的:探讨盐酸贝那普利片联合硝苯地平控释片对糖尿病合并高血压患者的降压效果。方法:收治糖尿病合并高血压患者164例,随机分为对照组和观察组。对照组采用盐酸贝那普利片治
为了选育适应性广、综合农艺性状优良、产量高的玉米新品种,山西省农业科学院现代农业研究中心玉米种质创新课题组以自选系L012作母本、L066作父本,于2008年选育而成东润88。
基于我国经济由高速增长转向高质量发展阶段的背景,“高质量”已经成为我国职业教育发展的重要任务,是在新时期加快人力资源供给侧结构性改革的关键举措。而半工半读培养模式