基于知识库的生物医学实体关系抽取研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:fhdfhdfrtr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和大数据时代的到来,生物医学文献数量呈爆炸式增长,如何从大量无结构的生物医学文献文本中抽取结构化信息成为一个亟待解决的问题。实体关系抽取是结构化信息抽取的关键任务之一,它旨在发现文本中实体对间的语义关系。在生物医学领域中,药物实体与疾病实体间往往存在大量药物诱导疾病的关系,本文主要针对这一类关系进行实体关系抽取,主要研究内容如下。(1)基于上下文语义的实体关系抽取探究语义信息对于药物诱导疾病关系抽取性能的影响。首先采用样例筛选法,将药物诱导疾病关系抽取任务分为句内样例和跨句样例。然后,分别采用CNN、BiLSTM和Transformer构建基于上下文和基于实体注意力的实体关系抽取模型,深入探究不同的上下文序列输入、不同特征选择方式对于上下文语义信息挖掘性能的影响。实验表明,基于最短依存路径和实体注意力的方法有效地提升了实体关系抽取模型性能。(2)基于知识表示的实体关系抽取生物医学领域中存在大量知识库,这些知识库中蕴含的大量结构化知识对于生物医学实体关系抽取具有很强的指导作用。首先利用TransE模型学习知识库中的结构化知识,获得知识表示。然后采用门卷积神经网络和门控多头自注意力网络,基于知识表示控制上下文信息的表达,深入融合知识库的结构化知识与自由文本信息,构建基于知识表示的高性能实体关系抽取模型。门卷积神经网络和门控多头自注意力网络能够有效地融合知识信息与文本信息,知识表示的引入显著提升了药物诱导疾病关系抽取的性能。(3)基于远程监督的实体关系抽取除人工标注语料外,生物医学领域中存在大规模未标注文本,文本的有效利用能够一定程度上解决生物医学实体关系抽取训练语料不足的问题。首先将大规模未标注文本与知识库三元组对齐,获得包含噪音的远程监督标注语料。为了去除远程监督语料的噪音,将编码后的语义表示通过噪音转换器,实现从噪音空间到清洁空间、或从清洁空间到噪音空间的转换,进行实体关系抽取。实验表明,基于远程监督的实体关系抽取能够充分利用知识库和未标注文本,有效地提升了实体关系抽取模型性能。本文的研究能有效提高药物诱导疾病关系抽取的性能,同时在具有领域知识库的前提下,可以拓展到其他不同领域的关系抽取任务中,具有一定的领域普适性。
其他文献
伴随着遥感技术和数字图像处理技术的发展,利用遥感影像进行变化检测能够为人类低成本地提供更加准确、更大范围的地表变化信息,对协调人口、资源、环境,实现可持续发展具有
网络编码允许网络中间节点对接收到的数据包进行编码后再转发,利用中间节点的计算开销换取网络的传输增益。同时,由于网络中中间节点参与数据包编解码,攻击者只需注入少量污染信息就可导致对合法数据包造成污染,最终使目的节点无法正确解码原始数据包。网络编码面临的安全问题制约了其发展,现阶段网络编码面临的攻击主要有污染攻击和窃听攻击,传统的网络安全机制已不再适用于网络编码。本文聚焦安全网络编码,在单源多播网络场
随着互联网和云计算等技术的发展以及Web 2.0时代的到来,互联网逐渐从单一的信息分享的平台拓展为服务共享的平台。其中,Web服务是互联网服务最主要的载体。越来越多的科学机
随着经济全球化加速,中国经济快速增长,现代企业面临的市场环境日益复杂。在企业日常运营过程中,建立在合同管理层面上的各种风险的增加是越来越多的企业所关注的问题。加强
变化检测是遥感应用研究领域的重要主题,随着遥感技术的不断进步,影像空间分辨率越来越高,基于高空间分辨率遥感影像(下文简称“高分影像”)的变化检测受到了越来越多的关注,
房屋是最基本的生活资料,关系到经济发展和社会稳定,并发挥着重要的投融资功能,遂出现了房屋借名买卖的社会现象并引发出诸多法律问题。本文拟针对房屋借名登记的概念、性质
自动聚焦技术是计算机视觉和各类成像系统的关键技术之一。在安防监控行业中,由于大倍率高智能的高清网络监控摄像机的使用带来了三个显著的问题,聚焦速度变慢、目标物距的获
税收收入是中央和地方财力的重要组成部分。税务机关是组织税收收入的专门机关,它在捍卫税收制度、维护税收秩序等方面发挥着重要作用。税务工作者若有涉税渎职行为,直接地,
随着政治经济的不断发展,人们的思想也在发生转变,在刑罚领域,人道主义的呼声日渐高涨。人类刑罚制度也经历了报复刑、威慑刑,再过渡到教育刑的时期,这也体现出刑罚制度的人
在中央立法与地方立法之间存在一个以创制性为主导的沟通渠道,地方立法机构可以通过积极发挥创制性这一理念,完善国家法律体系和地方法治治理体系。地方立法创制性的高低实际