基于文本挖掘的生物医学实体关系抽取研究

来源 :大连理工大学 | 被引量 : 8次 | 上传用户:taodenmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量的非结构化生物医学文献中蕴含着丰富的有价值的生物医学知识,是生物医学领域重要的知识来源。因此,迫切需要研究文本挖掘的方法提取和理解其中的知识。生物医学实体间关系抽取作为生物医学信息抽取的基本任务,对于领域数据库和知识图谱的构建、推动生命科学以及文本挖掘相关领域的发展有着重要的理论和应用价值。本文以生物医学实体间关系抽取为研究主线,基于句子和摘要两种文本,深入分析了主流有监督学习方法在生物医学实体间关系抽取上存在的问题。根据其领域特色,围绕着特征表示的学习方式、模型构建以及知识融合等方面展开研究,取得了如下的成果。多数生物医学语料不仅规模小且多包含结构复杂的长句,导致其上的句子级关系抽取性能偏低。由此,本文提出了细化顶点周围上下文信息的上下文向量图核,以便充分捕获顶点周围的直接、间接以及远近距离信息。实验表明,本方法有助于改善长复杂句上药物间关系提取系统的性能。此外,本方法对于语料规模要求不高且兼具高精度特性。对于具有适量己标注文本的句子级关系抽取,自动学习文本语义表示的模型性能不理想。本文提出了词向量级别的面向候选实体的输入attention,并在此基础上构建了基于长短期记忆网络(LSTM)的Att-BLSTM模型。引入的输入attention可以突出生物医学文本长句中对关系类型重要的单词,避免LSTM在处理长句时丢失一些重要上下文的偏置缺陷。实验表明,通过适当的文本处理,仅仅使用三种输入向量的提出模型能有效地自动识别单词间的近距离和远距离模式,改善了药物间交互关系提取系统的综合性能。进一步,为了从摘要中抽取包含跨句关系的概念级实体间关系,多数系统基于传统机器学习方法利用了大量特征工程。本文依据跨句关系的特性和文章的主题,提出了一个层次的篇章级神经网络模型。通过标记存在于多个句子中的候选实体,实现了候选实体周围上下文信息的有目的地收集。实验表明,仅仅依赖两种输入向量,本方法能够有效地自动识别句间和句内的药物疾病实体关系,并且具有一定的泛化性。最后,针对关系抽取中领域知识与文本语义的表示学习分离问题,基于上面提出的篇章级网络模型,本文提出了依赖文本语义利用attention机制加权领域知识表示,进而有机融合二者语义表示的方法。实验表明,通过attention机制表示的领域知识可以区别不同知识对于一篇文章中出现的特殊候选实体的作用,改善了药物疾病关系抽取系统的性能,尤其对跨句关系的提取性能。综上,本文基于不同粒度文本在不同条件下存在的问题,提出了有效的生物医学实体关系抽取方法和模型,实验结果达到了具有先进性能的同类系统水平。
其他文献
落石是山区公路常见的病害,落石灾害是边坡稳定性不足的一种表现形式,灾害的发生与边坡的性质有密切联系。边坡岩体处于不稳定状态或欠稳定的状态而形成危岩,危岩内含有层理
文章的逻辑性强弱会直接影响人们能否在写作时清楚地表达观点。一篇逻辑性强的文章,可以很好地给读者传达作者的观点和意图,从而获得应有的交流效果。鉴于此,接下来的主要工
大学生的体质健康状况直接关系着国家的发展与民族的兴衰,我国20多年的体质调研结果表明,大学生的体质总体呈下降趋势。关注学生的体质健康水平,探究影响其体质健康的主要因素,寻
针对复杂中小型煤矿通风系统贯通过程中自然风压的变化对通风系统产生影响等问题,为了研究资源整合时期自然风压的特点,运用数学逻辑推理的方法,得出了自然风压的变化规律,推
巷道围岩的类别是矿井煤柱尺寸及支护设计的基础,以往设计中考虑的因素不够全面且受主观性因素影响较大,造成巷道后期维护困难,影响工程进度。通过采用模糊数学方法对巷道围
城市轨道交通系统制式的确定直接关系到系统的技术标准、工程规模以及工程投资,在城市轨道交通建设中具有举足轻重的作用,必须在轨道交通建设以前确定。提出了车辆选型中应考
针对重力式挡土墙的土压力常规计算方法中存在的不合理之处.对土压力计算中墙高的取值以及墙后粘性土的拉应力对土压力计算的影响进行分析和探讨,可使土压力的计算更趋合理。
"问题导学法"是学生在学习过程中发生的一种较重要的认知方法。从某种意义上讲,教学的最终目的是要使学生能自主地解决在认知过程中发现的各种问题。培养学生解决实际问题的
会议
目的:探讨中药降酶汤加西医常规护肝治疗慢性脂肪肝、酒精肝的临床疗效。方法:选取接受治疗的50例慢性脂肪肝、酒精肝患者选为实验的观察对象,并且按照数字分配法将全部患者