论文部分内容阅读
表皮生长因子受体作为抗癌靶向药物设计的重要靶标之一,目前已经成为抗癌药物设计的一大焦点。本课题利用自组织神经网络、支持向量机和多元线性回归等机器学习算法,以及化合物相似性比较的方法,对表皮生长因子受体抑制剂生物活性的构效关系进行研究。本论文研究内容可分为以下三部分:第一部分,利用自组织神经网络和支持向量机两种方法,对表皮生长因子受体抑制剂和非抑制剂进行定性分类研究。收集了1248个抑制剂分子和3093个非抑制剂分子,基于随机分类原则将数据分为训练集和测试集;计算每个化合物的ADRIANA.Code结构参数,利用相关性分析选择了13个与活性相关性较高的结构参数,建立分类模型。在自组织神经网络模型和支持向量机模型中,训练集和测试集的模型正确率分别为98.48%、96.33%和99.45%、97.58%。此外,还研究分析抑制剂的结构特征与分子生物活性之间的内在关系。第二部分,是利用多元线性回归和支持向量机两种方法,对表皮生长因子受体抑制剂的生物活性进行定量预测研究。依据化合物生物活性的测定方法,抑制剂化合物被归为两大类:基于荧光检测测定生物活性的化合物数据集(包括793个化合物)和基于放射性元素检测生物活性的化合物数据集(包括819个化合物)。针对每一个数据集分别用随机和自组织神经网络两种方法分训练集和测试集。同样,利用相关性分析和逐步回归对结构参数进行选择,最后基于选择的结构参数建立一系列的活性预测模型。所有的模型中,训练集的相关系数R2均大于0.70,标准偏差均小于0.71;测试集的相关系数R2均大于0.62,标准偏差均小于0.86。第三部分,以表皮生长因子受体抑制剂为研究对象,进行了化合物二维和三维结构相似性检索方法的探索。二维相似性研究基于五种fingerprints描述符(包括MACCS、Tree、Path、Circular、Path)和三种相似性计算系数(Tanimoto、Consine、Euclid)进行,三维相似性研究基于分子的形状和性质特征和Tanimoto相似性系数进行。此研究旨在比较不同的相似性检索方法在化合物数据库检索的效果。研究结果表明,两种最佳的二维相似性检索方法为:Tanimoto-Path和Euclid距离-Path,富集率均为0.948,三维相似性的检索富集率为0.879。