论文部分内容阅读
药物代谢的稳定性作为一个药物的关键性质,是极其重要的,决定了药物药代动力学的主要性质。因此为了降低在临床阶段由于候选药物的代谢不稳定或稳定而带来高成本的风险,建立一套有效的和可靠的方法in silico预测药in vitro的代谢稳定性和in vivo的药代动力学相关参数,具有重要的实际意义。而随着大量的体外、体内实验分析的数据累积,以及相关数据库的构建及高质量的数据整理,目前建立in silico的预测模型的条件已经具备。特别是应用机器学习相关技术,由于其在处理多样性结构下及复杂问题中的优秀表现,特别适用于药物的代谢稳定性和药代动力学指标的分类和预测。然而,基于机器学习方法在体外、体内代谢稳定性的预测仍然有很多急需要解决的问题。通常这些模型的内部验证很好,外部预测效果不理想,即模型的泛化能力很差。主要的原因是两方面:第一,没有抓住关键的特征,而采用了过多的特征导致模型太过复杂,存在可能的过拟合而导致模型扩展能力变差;第二,由于有限的训练样本数目导致训练集缺乏代表性。因此,在本论文的第一次研究中,我通过使用新的特征选取方法,构建了预测化合物体外血浆稳定性的支持向量回归(SVR)模型。在特征的选取中,发现合理恰当的选取描述符以及描述符的个数,可以大大提高模型的外部预测性能,同时借助核主成分分析(KPCA)方法显示不同描述符组合下在高维空间的线性可分情况,进一步说明了特征选取的重要性。这可能会为其他模型的建立提供帮助。最后建立的人血浆体外稳定性模型可以为in silico体外预测提供便利的帮助,同时筛选出与稳定性非线性相关的重要描述符和分子指纹,为前药和软药的设计提供思路。在本文的第二次实证研究中,选取了in vivo的药代动力学参数——药物的半衰期作为研究对象。首先为了扩大训练集样本数目和结构的多样性,通过广泛的数据搜集,获得了据我所知最大数据集的药物半衰期数据。之后分析了哪些分子描述符和外部因素对半衰期有较大的影响,其次使用经典的机器学习方法朴素贝叶斯分类器和递归分割来建立预测模型识别药物半衰期的长短,同时探究了不同分子指纹和描述符组合下的预测性能,最后建立的贝叶斯推断模型具有一定的识别能力。这些模型与方法为设计合成以及在临床实验前确定药物的半衰期有重要参考价值。