基于序列标注的关系抽取研究与实现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:jazz988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网资源的爆炸式增长,如何从大规模无规则数据中提取所需关键信息成为亟待解决的问题。关系抽取任务能够从非结构化的数据中抽取得到满足用户需求的结构化数据,其主要是从文本中抽取由头实体、关系和尾实体构成的关系三元组,从而对知识进行直观描述。关系抽取是知识图谱、智能问答和文本摘要等任务的基石,具有良好的发展前景。随着深度学习方法的不断应用,关系抽取取得了一定的进展,但其仍然存在关系重叠和F1值不够高的问题。针对以上问题,提出了基于Bi Mogrifier LSTM和多头注意力机制的序列标注关系抽取模型,通过序列标注方法来实现联合关系抽取,同时完成命名实体识别和关系分类两个子任务。工作内容主要包括以下几个方面。1.针对长短期记忆网络在关系抽取任务中提取特征时所存在的缺少上下文交互的问题,采用Mogrifier LSTM对长短期记忆网络进行改进,让当前输入和上文进行多轮交互,从而增强上下文信息交互能力。提出Bi Mogrifier LSTM来捕获输入序列的双向长期依赖,同时利用经过信息交互的前向和后向Mogrifier LSTM来建模上下文信息。通过对比实验证明引入Bi Mogrifier LSTM后,关系抽取效果有明显提升。2.针对传统循环神经网络运算过程中只提取全局特征,无法突出上下文中关键信息的问题,采用多头注意力机制从不同的空间给文本中重要信息赋予更高的权重,从而增强了提取局部特征的能力。采用Bi LSTM-CRF序列标注模型,既能捕获句子的双向依赖,又可以考虑标签之间的顺序依赖,从而提升解码的准确性。通过实验证明,所提方法较其他主流模型取得了较高的F1值,同时缓解了SEO和EPO关系重叠问题。3.根据以上研究内容,设计并开发一个基于BiMogrifier LSTM和多头注意力机制的序列标注关系抽取原型系统,将其应用于新闻领域。
其他文献
目的:对李鲜教授治疗胃食管反流病的中药处方进行提炼总结,分析其用药规律,总结李鲜教授治疗本病的经验,为临床医师运用中医药治疗本病提供参考。方法:收集2018年1月1日—2021年10月31日期间李鲜教授门诊病历系统中胃食管反流病患者的首诊病历,依照纳入、排除标准筛选出符合标准的首诊病历,对其进行规范整理。使用Excel 2017软件建立数据库,并对其中数据进行频数分析;应用SPSS Modeler
学位
目的:雷公藤甲素具有良好的抗肿瘤活性,但其水溶性差和毒性较大限制了其进一步的应用。本课题通过制备雷公藤甲素线粒体靶向脂质体(SS-TP LPs),以实现药物的靶向性,提高抗胰腺癌的活性,降低雷公藤甲素的毒性。方法:(1)采用薄膜分散法制备SS-TP LPs,通过单因素考察载体与药物的投料比例,并对其大小形态、粒径分布、Zeta电位和在不同介质环境下的稳定性进行考察。高效液相色谱法测定其包封率、载药
学位
目的:动脉粥样硬化(AS)是引起中风等心脑血管疾病的重要病因,控制炎症反应及脂代谢异常是干预AS关键途径,PI3K/AKT/NF-κB是调控慢性炎症和脂代谢的重要通路。历代本草均有牛蒡叶防治中风的记载,但现代研究薄弱,作用机制尚不清楚。因此,本研究通过高脂饲料喂养联合维生素D3腹腔注射建立AS大鼠模型,评价牛蒡叶醇提物(ALLE)对AS的干预作用;通过ox-LDL诱导RAW264.7细胞建立泡沫细
学位
研究目的支气管哮喘(Bronchial Asthma)是一种病机复杂,易反复发作难以治愈的慢性呼吸系统疾病,哮喘的异质性致使患者的临床症状表现多样,疾病进展过程中常并发多种疾病,进一步加大了治疗难度,基于病症结合对支气管哮喘患者进行复杂网络特征研究,并对不同模块的表型特点及其核心方药的分子作用通路进行初步探究,为临床哮喘患者的个体诊疗方案的选择与精准治疗提供依据和参考。研究方法在真实世界诊疗环境下
学位
目的:建立同时测定牛膝茎叶多指标成分的定量方法;通过比较不同采收期牛膝茎叶中指标成分和总甾酮、总皂苷、总多糖含量,确定牛膝茎叶的最佳采收期;研究不同采收期牛膝茎叶水提取物和乙醇提取物抗氧化活性与牛膝茎叶中总甾酮、总皂苷、总多糖含量的相关性;探究牛膝茎叶甾酮皂苷化学部位对H2O2诱导损伤的人脐静脉内皮细胞(Human umbilical vein endothelial cells,HUVEC)的保
学位
传统多智能体系统一致性问题的相关工作主要集中在系统模型设计和稳定性条件获取上,很少涉及系统控制的最优性。而在实际工程中,如何使系统以最小的代价来完成某一任务目标也是非常重要的。目前,大部分最优控制相关的工作仅基于智能体之间的合作交互,且需要精确的系统模型,这就极大的限制了其理论成果在实际环境中的应用范围。此外,这些相关工作难以处理多目标或者并行分布式任务,并且其采用的时间触发模式会占用大量的系统资
学位
在计算机和互联网技术的高速发展时期,文本数据呈指数增长,更新速度较快。文本信息的发展也逐渐多样性化,复杂化,丰富化。社交网络中的各种书籍评论、电影评论和的新闻中的信息量对于用户来说无疑是巨大的,复杂的。此外,用户要想从成千上万的评论中逐条翻阅查找数据或者是从巨大的语料库中寻找文件必要耗费巨大的精力和时间,十分困难。因此挖掘出这些文本信息的潜在含义和自动从文本提取有用的信息已经成为自然语言处理重点研
学位
期刊
随着智慧城市步步推进,城市的监控摄像头数量急剧增加,由此产生的行人图像数据规模在迅速膨胀。在图像数据呈爆炸式增长态势的前提下,对海量监控数据进行有效的人工分析费时费力。如今,对于海量图像数据的处理,已经不单单满足于记忆存储的简单处理,而是需要提高到语义分析和理解的层面。由于视频图像是一种典型的非结构化数据,需要利用智能算法进行结构化分析。行人属性识别作为一种典型的视频结构化手段,能够高效地从视频中
学位
21世纪是信息技术的大爆发时期,软件产业的应用范围在不断扩张,高度的信息化给企业和个人都带来巨大的改变以及极大地便利。随着工业制造领域产业分工的细化,越多越多的企业运营依赖于计算机软件节约时间,软件应用可以帮助企业更好地发挥企业核心竞争力,提升工作效率,使其更好地参与到外部竞争。为了降低成本选择将软件开发外包至国外,还有优化资本结构,分散风险优化资本管理,能获得专业的服务和配套支持等优点,S公司的
学位