论文部分内容阅读
生物医学命名实体识别和实体关系抽取是生物医学信息抽取领域中基础而关键的任务,为生物医学知识图谱,疾病治疗,药物研发提供关键的信息。近年来,基于深度神经网络的方法已成为生物医学信息抽取的主流方法。相较于传统的统计学习方法,深度神经网络有着自动抽取特征和模型泛化性好的优势。本文基于深度神经网络方法研究了生物医学命名实体识别和药物-药物间关系抽取两个任务。在生物医学命名实体识别任务中存在着实体稀疏性高、边界模糊、含有特殊字符等情况。针对上述问题,本文提出了一种基于CNN-BLSTM-CRF的神经网络模型。该模型通过卷积神经网络(Convolutional Neural Networks,CNN)自动抽取单词的字符级特征,并将单词的字符级特征与词向量结合送入长短时记忆网络(Long Short Term Memory Network,LSTM)学习上下文信息。最后通过条件随机场(Conditional Random Field,CRF)得到一个全局最优的标记序列。本文在两个数据集上的实验证明了该模型的有效性,在BioCreative II GM和JNLPBA语料上分别达到了89.09%和74.40%的F1值。在生物医学药物-药物间关系抽取任务中,本文针对实例间有着相似的上下文、实体信息缺失等问题,提出了一种融合知识的注意力机制的药物-药物关系抽取模型。该模型预先获取维基百科和DrugBank数据库的药物摘要信息作为外部知识,并通过Doc2vec将外部知识编码成为外部知识向量。首先模型通过双向门控循环单元网络(Bidirectional Gated Recurrent Unit,BGRU)对于输入序列进行编码并学习其语义信息。然后利用注意力机制融合BGRU编码后的序列和实体外部知识向量,获得结合外部知识和上下文语义信息的序列表示并进行分类预测。在DDIExtraction 2013语料上的实验结果表明,该模型达到了71.86%的F1值。综上所述,本文针对生物医学命名实体识别中存在的问题提出了基于CNN-BLSTM-CRF的生物医学命名实体识别模型。在BioCreative II GM和JNLPBA语料上的实验表明,所提出的CNN-BLSTM-CRF模型是有效的。本文针对生物医学药物-药物间关系抽取任务的现存问题提出了融合知识注意力机制的药物-药物关系抽取模型。在DDIExtraction 2013数据集上的实验证明了本文提出的融合知识注意力机制的药物-药物关系抽取模型的有效性。