论文部分内容阅读
随着生物医学的相关研究迅速发展,大量的领域数据及知识被发现与记录。构造生物信息知识图谱能够有效组织丰富多样的领域知识,从而进行信息检索、数据挖掘与知识发现,为生物学、病理学和药理学提供支持。生物知识图谱的构建过程需要知识提取、知识表示,知识融合以及知识发现等步骤。本文研究这一系列技术步骤中的两个关键问题,分别是面向生物医学文献的信息提取,和面向基因-疾病网络的关联预测,针对这些问题给出了专用的机器学习模型。本文完成的主要工作有:(1)为提取生物医学文献中的事件,提出一种基于混合神经网络的新型组合策略。海量的生物医学以献以非结构化的文本格式记录了大量知识,而事件是一种描述这些知识的有效结构。本文使用了混合深度神经网络模型提取事件相关信息,以消除对人工特征工程的依赖;并使用了一种组合策略作为后处理过程,来改善提取过程中的误差积累。在多个BioNLP公开事件数据集上的实验结果表面本方法的取得了良好的性能表现。(2)为预测基因-疾病关联,给出一个基于关联知识图谱的图卷积模型。众多的数据库记录了的大量的基因和疾病的关联信息,将其组织为知识图谱可以挖掘其中的隐藏知识。本研究使用基于图卷积网络的方法预测其中未知基因-疾病关联,描述了一种邻接矩阵Dropout技术并定义了一个新型的聚簇损失函数,用来增强模型的泛化能力。在DisGeNet数据集上的实验说明了本方法的预测性能达到了已有工作的最佳水平。(3)为解决文献挖掘和关联预测中标注数据不足的问题,给出了基于自训练的半监督学习方法。生物医学数据普遍存在的标记样本数量不足的问题,使得监督学习性能受限。本研究在文本挖掘和基因-疾病关联预测任务上应用了自训练方法,借助已有的标注数据和大量的无标注数据,按照预测结果可信度指标筛选样本,用来扩充标注数据集并迭代训练。对比实验的结果证明了原始模型加入自训练后取得了积极的作用。