论文部分内容阅读
化合物与疾病关系识别是生物医学文献挖掘中的一项重要任务,化合物与疾病关系有助于改善生物医学搜索引擎的搜索结果,缩短药物研发周期,减少药物研发成本。化合物与疾病关系识别,具体来说分为两个子任务——生物医学命名实体(以下简称为生物名称)归一化和化合物与疾病关系提取。归一化主要是为了解决生物医学文献中的生物名称形式多样、难以确认和归类的问题,任务主要目标是将文本中出现的生物名称匹配到生物医学标准概念上,现有解决方法包括字符匹配和关联矩阵学习,其中字符匹配的方法受限于归一化词典的覆盖范围,而关联矩阵学习的方法对陌生单词的刻画能力不足。化合物与疾病关系提取则需要根据上下文内容提取出文本中存在引发关系的化合物与疾病,现有方法包括共现频率统计、规则匹配和统计机器学习,其中共现频率统计方法准确率较低,而规则匹配和统计学习方法则需要人为设计规则或特征,耗费人工的同时也可能存在遗漏和偏颇。针对以上任务,本文的主要工作和贡献如下:1.基于语义匹配的生物医学命名实体归一化本文提出了基于语义匹配的归一化算法,其主要是依据上下文相似性来挖掘单词语义相似性并通过衡量语义相似性来进行匹配。本文首先收集大量无标记的、与生物名称相关的上下文并构造语义空间的词向量,然后采用深度学习网络来度量生物名称在语义空间中的距离,设计了基于排序思想的损失函数,并使用随机梯度下降算法对模型进行训练。计算实验表明,提出方法在NCBI测试集上取得了 85.3%的正确率,优于传统方法。2.基于卷积神经网络的化合物与疾病关系提取本文提出了基于卷积神经网络的化合物与疾病关系提取算法,主要是依据上下文中的关键性短语信息(局部关键信息)来提取化合物与疾病关系。本文将无监督训练的语义向量和相对位置信息组成单词的特征向量,拼接单词特征向量组成句子的特征图,卷积神经网络在特征图上进行卷积操作和池化操作来捕获局部关键信息。计算实验表明,提出方法在CDR测试集上取得了 50.67%的F值,较传统方法人工参与少、覆盖能力强。