论文部分内容阅读
随着互联网技术的发展和大数据时代的到来,生物医学文献数量呈爆炸式增长,如何从大量无结构的生物医学文献文本中抽取结构化信息成为一个亟待解决的问题。实体关系抽取是结构化信息抽取的关键任务之一,它旨在发现文本中实体对间的语义关系。在生物医学领域中,药物实体与疾病实体间往往存在大量药物诱导疾病的关系,本文主要针对这一类关系进行实体关系抽取,主要研究内容如下。(1)基于上下文语义的实体关系抽取探究语义信息对于药物诱导疾病关系抽取性能的影响。首先采用样例筛选法,将药物诱导疾病关系抽取任务分为句内样例和跨句样例。然后,分别采用CNN、BiLSTM和Transformer构建基于上下文和基于实体注意力的实体关系抽取模型,深入探究不同的上下文序列输入、不同特征选择方式对于上下文语义信息挖掘性能的影响。实验表明,基于最短依存路径和实体注意力的方法有效地提升了实体关系抽取模型性能。(2)基于知识表示的实体关系抽取生物医学领域中存在大量知识库,这些知识库中蕴含的大量结构化知识对于生物医学实体关系抽取具有很强的指导作用。首先利用TransE模型学习知识库中的结构化知识,获得知识表示。然后采用门卷积神经网络和门控多头自注意力网络,基于知识表示控制上下文信息的表达,深入融合知识库的结构化知识与自由文本信息,构建基于知识表示的高性能实体关系抽取模型。门卷积神经网络和门控多头自注意力网络能够有效地融合知识信息与文本信息,知识表示的引入显著提升了药物诱导疾病关系抽取的性能。(3)基于远程监督的实体关系抽取除人工标注语料外,生物医学领域中存在大规模未标注文本,文本的有效利用能够一定程度上解决生物医学实体关系抽取训练语料不足的问题。首先将大规模未标注文本与知识库三元组对齐,获得包含噪音的远程监督标注语料。为了去除远程监督语料的噪音,将编码后的语义表示通过噪音转换器,实现从噪音空间到清洁空间、或从清洁空间到噪音空间的转换,进行实体关系抽取。实验表明,基于远程监督的实体关系抽取能够充分利用知识库和未标注文本,有效地提升了实体关系抽取模型性能。本文的研究能有效提高药物诱导疾病关系抽取的性能,同时在具有领域知识库的前提下,可以拓展到其他不同领域的关系抽取任务中,具有一定的领域普适性。