论文部分内容阅读
海量的非结构化生物医学文献中蕴含着丰富的有价值的生物医学知识,是生物医学领域重要的知识来源。因此,迫切需要研究文本挖掘的方法提取和理解其中的知识。生物医学实体间关系抽取作为生物医学信息抽取的基本任务,对于领域数据库和知识图谱的构建、推动生命科学以及文本挖掘相关领域的发展有着重要的理论和应用价值。本文以生物医学实体间关系抽取为研究主线,基于句子和摘要两种文本,深入分析了主流有监督学习方法在生物医学实体间关系抽取上存在的问题。根据其领域特色,围绕着特征表示的学习方式、模型构建以及知识融合等方面展开研究,取得了如下的成果。多数生物医学语料不仅规模小且多包含结构复杂的长句,导致其上的句子级关系抽取性能偏低。由此,本文提出了细化顶点周围上下文信息的上下文向量图核,以便充分捕获顶点周围的直接、间接以及远近距离信息。实验表明,本方法有助于改善长复杂句上药物间关系提取系统的性能。此外,本方法对于语料规模要求不高且兼具高精度特性。对于具有适量己标注文本的句子级关系抽取,自动学习文本语义表示的模型性能不理想。本文提出了词向量级别的面向候选实体的输入attention,并在此基础上构建了基于长短期记忆网络(LSTM)的Att-BLSTM模型。引入的输入attention可以突出生物医学文本长句中对关系类型重要的单词,避免LSTM在处理长句时丢失一些重要上下文的偏置缺陷。实验表明,通过适当的文本处理,仅仅使用三种输入向量的提出模型能有效地自动识别单词间的近距离和远距离模式,改善了药物间交互关系提取系统的综合性能。进一步,为了从摘要中抽取包含跨句关系的概念级实体间关系,多数系统基于传统机器学习方法利用了大量特征工程。本文依据跨句关系的特性和文章的主题,提出了一个层次的篇章级神经网络模型。通过标记存在于多个句子中的候选实体,实现了候选实体周围上下文信息的有目的地收集。实验表明,仅仅依赖两种输入向量,本方法能够有效地自动识别句间和句内的药物疾病实体关系,并且具有一定的泛化性。最后,针对关系抽取中领域知识与文本语义的表示学习分离问题,基于上面提出的篇章级网络模型,本文提出了依赖文本语义利用attention机制加权领域知识表示,进而有机融合二者语义表示的方法。实验表明,通过attention机制表示的领域知识可以区别不同知识对于一篇文章中出现的特殊候选实体的作用,改善了药物疾病关系抽取系统的性能,尤其对跨句关系的提取性能。综上,本文基于不同粒度文本在不同条件下存在的问题,提出了有效的生物医学实体关系抽取方法和模型,实验结果达到了具有先进性能的同类系统水平。