论文部分内容阅读
药物研发是一个漫长而复杂的过程,除了挖掘生物小分子与靶蛋白之间的关系外,更重要的是找到生物小分子在组织内发挥作用的代谢或传导途径,即挖掘小分子与全局生理过程之间的潜在作用关系。由于传统的实验方法受到实验条件和成本等很多方面的限制,难以对生物小分子与通路之间的相互作用关系进行全面的研究,而有效的机器学习方法恰好能弥补这些方面的不足。本文以生物小分子(包括药物和化合物)和通路为研究对象,通过挖掘各类生物知识,预测生物小分子与通路之间的相互作用关系,为临床实验提供有价值的信息。主要内容如下:1.基于多特征整合方法,预测KEGG数据库中与癌症相关的通路和药物之间的相互作用关系。具体来讲是将化学结构空间信息,药物的官能团信息整合构成药物特征谱;将与通路关联的基因信息(包括基于NCI-60实验中的基因表达数据的平均值和方差值,基因本体语义信息)整合构成通路特征谱;同时在特征谱中加入药物-通路相互作用网络拓扑信息。文章选择三种半监督学习算法对药物-通路相互作用进行预测,实验结果证明特征整合是有效的,并且有一些潜在的药物-通路相互作用在权威的数据库中能够得到验证。2.基于改进的旋转森林算法预测化合物与通路之间的相互作用关系。本章拓宽研究范围,以cMap数据库中的基因为依据筛选出78条通路,并从实验使用的1309个化合物小分子中筛选出147个化合物,构建得到化合物-通路相互作用数据集。特征构建相比之前也更有针对性,使用基于该实验的基因微阵列数据计算化合物和通路特征谱。我们对传统的旋转森林集成学习算法进行改进,选择Relief算法作为特征旋转算法,基于图的半监督学习算法作为基础分类器,并将改进后的方法简称为RGRF (Relief&GBSSL-Rotation Forest)算法。实验结果表明RGRF算法比原始的旋转森林算法性能要好,并且预测得到的部分化合物-通路相互作用关系在数据库和文献中都能得到验证。3.实现了基于RGRF算法的可视化预测工具。该工具可以提供化合物在KEGG数据库中基本信息,同时实现对cMap实验中包括的几乎全部的化合物与相关通路的相互作用预测,并按照预测出的相互作用概率值给出一个相关通路列表。