论文部分内容阅读
现代新药研发的关键首先是寻找、确定和制备药物分子靶标。尤其在新药研发的过程中,几类蛋白诸如酶,离子通道,G蛋白偶联受体(GPCR)和核受体代表了当前药物靶标的绝大多数。然而,由于受到通量、精度和成本费用的影响,传统的实验手段用于阐明这些潜在的药物-靶标相互作用关系的应用难以广泛开展。因此迫切需要开发有效的计算方法来帮助研究人员挖掘药物与靶标之间相互作用的规律,从而为实验研究提供补充和辅助的证据。本文针对上述问题,通过采集可靠的数据来源,融合多种生物信息诸如蛋白质同源相似性,蛋白质序列特征,蛋白质功能信息,化合物结构相似性,官能团信息以及药物靶标网络拓扑特征等,利用特征选取,有监督,半监督学习以及网络拓扑分析方法来有效地预测出潜在的药物-靶标对。全文的主要工作概括如下:1.从化学和基因空间出发,在已知的四类药物-靶标相互作用网络中最大限度地利用现有的标签数据去推测大量的未标签数据,提出了一种半监督学习方法来预测潜在的药物-靶标对。结果表明,通过比较不同的蛋白质同源和化合物结构相似性算法可以提高药物-靶标相互作用预测的性能。2.根据已知的四类蛋白质家族(酶,GPCR,离子通道和核受体)以及与之相互作用的药物数据,提出了一种基于改进的二分图学习方法来预测药物靶标相互作用网络。通过对生物特征进行最优特征选择,并使用基于核的方法来发现未知的药物-靶标相互作用关系。结果表明,所提出的方法比起二分图学习方法预测精度有所提高,一些预测出的药物-靶标对也在权威的相关数据库中得到了验证。3.针对已知13种疾病的药物靶标相互作用数据集,提出一种基于图的半监督学习方法。该方法运用药物-靶标相互作用网络拓扑结构信息并融合多种生物特征来预测潜在的药物-靶标关系对。结果表明,所提出的方法性能明显优于已有的二分图局部模型法(BLM)和半监督学习法(NetlapRLS)。