论文部分内容阅读
21世纪以来,生命科学的发展日新月异,人类探索生命奥秘和维护人体健康的需求更加迫切。随着人类基因组计划的完成,研究者们逐渐意识到微生物是人体不可分割的一部分,而且对人类健康和人体疾病具有重要影响,因此开展了各种人类微生物组计划。从系统水平对微生物网络展开研究,从而揭示微生物在人类复杂疾病中的致病机制,成为了当前生物信息学和计算生物学领域重要的研究热点之一。随着高通量测序和筛选技术的快速发展,产生了大量微生物组学、宏基因组学、宏代谢组学、基因组学、蛋白质组学等生物医学数据,这为微生物组研究提供了宝贵的资源。然而,如何挖掘和提取这些数据中蕴藏的价值巨大的信息仍然是一项重大挑战。针对微生物关联网络的系统研究对于深入理解微生物的致病机制、促进药物的发展和推动微生物在精准医疗中的应用以及为疾病的预防、诊断和治疗提供理论依据具有重要意义。然而,采用传统的实验方法探索微生物面临着周期长、高成本、高风险等诸多挑战,高效的计算方法提供了一种有效且经济的补充策略。本文以生物网络为工具,以深度学习等技术为手段,主要针对微生物-疾病关联关系识别、微生物-药物相互作用关系预测等任务相关的算法进行了研究,主要研究工作概述如下:(1)针对大多数已有基于随机游走的微生物疾病关系预测算法忽略了网络拓扑特征信息、当前用于微生物-疾病关系预测的计算模型预测效果欠佳等问题,提出了一种融合网络拓扑特征信息的随机游走算法NTSHMDA用于识别微生物疾病关系。首先基于微生物-疾病已知关系数据,采用高斯核相互作用谱方法构建微生物-微生物、疾病-疾病相似性网络,并结合微生物-疾病二分网络构建异构网络。然后,基于不同邻居的重要性可能存在差异的假设,通过融合网络拓扑特征信息对微生物-疾病的边权值进行了重新评估,为更重要的邻居分配更大的权值。根据特征信息的不同来源,建立了两个分别基于微生物空间和基于疾病空间的全新异构网络。最后,通过分别执行随机游走算法于两个全新的异构网络推断微生物-疾病关系。交叉验证实验结果表明,相比已有算法,NTSHMDA在微生物-疾病关系预测任务中能够取得更大的AUC值。(2)针对当前微生物-疾病预测算法普遍对已知微生物-疾病关系依赖性强、大多数已有算法无法实现对于缺乏已知关联数据的新微生物和新疾病的预测等问题,提出了一种基于图注意力网络的深度学习模型GATMDA来识别微生物-疾病关系。首先,考虑到基于已知微生物-疾病关联数据无法获得新微生物和新疾病特征的问题,GATMDA借助多种生物医学数据建立丰富的微生物和疾病特征。然后,为了避免信息丢失和加强表征学习,通过建立自注意力网络间的信息传播对标准图注意力网络进行优化,并用优化图注意力网络学习节点表征。随后为了更准确地融合节点自身表征和邻居表征,设计了基于多层感知机的双重融合器。最后,为了识别复杂的微生物-疾病相互作用关系,借助矩阵填充技术对微生物-疾病二分网络进行重构,以推断微生物疾病关系。三种不同实验场景下的实验结果表明,GATMDA相比对比算法具有更好的预测表现,而且能够适应于缺乏已知关联数据的新微生物和新疾病预测。(3)考虑到目前微生物耐药性问题日趋严峻、新药物的研发速度极其缓慢等问题,本文提出了一种基于图卷积网络的微生物-药物相互作用预测模型GCNMDA。首先,结合高斯核相似性、药物化学结构相似性和微生物功能相似性建立了药物-药物相似性网络和微生物-微生物相似性网络,为了提取重要的特征和过滤噪音,进一步借助随机游走算法改善了药物特征和微生物特征。然后,鉴于条件随机场(Conditional Random Field,CRF)在识别相似性节点方面的优势,在标准的图卷积网络中添加了CRF层,以使得相似性的节点能够学习到相似的表征向量,而且为了捕捉不同邻居的重要性,在CRF层中进一步引入了注意力机制来加强重要邻居的特征融合。最后,根据第二步中学习到的节点表征,通过重构微生物-药物二分网络来预测微生物药物关系。基于三种不同密度的数据集的实验结果表明,与其它算法相比,GCNMDA模型在三个数据集中均表现出了更优的性能,而且对于数据集密度的变化具有较强的容抗性。(4)上述GCNMDA模型虽然在不同的数据集上都表现出了较好的预测表现,但是其预测准确率仍然有进一步改善的空间,而且GCNMDA模型并不能为所有的新微生物和新药物实现相关预测。为了解决上述问题,提出了一种新的基于集成图注意力网络的深度学习模型EGATMDA用于微生物-药物关系预测。首先,该模型有效利用了微生物基因组序列数据建立了微生物特征,结合药物化学结构信息和药物高斯核相似性建立了药物特征,同时通过整合多源生物医学数据构建了多种异构网络。然后,由于在同一个网络中不同邻居可能对指定节点产生不同的重要性,而且对于指定节点不同的图可能包含不同的语义信息,因此本文设计了双重注意力机制来学习节点表征。最后基于节点表征通过重构微生物-药物相互作用网络预测微生物药物关系。实验结果表明,EGATMDA比对比方法能够取得更大的AUC和AUPR值,而且新微生物和新药物预测场景下的结果证明EGATMDA能够成功实现新微生物和新疾病的相关预测。综上所述,人体微生物在人类健康和疾病中扮演着举足轻重的作用。本课题拟从计算信息学的角度出发,基于大量的生物医学数据,结合图机器学习和网络科学技术对微生物相关问题进行建模和分析,提出了多种适用于致病微生物识别以及微生物-药物相互作用关系预测的计算模型,对于促进微生物致病机制的理解、加速新药物的发展和推动微生物在个性化治疗、精准医疗领域的应用具有重要意义。