论文部分内容阅读
白三烯(LTs)是源自花生四烯酸(AA)的促炎性脂质介质,在哮喘、关节炎、心血管疾病和癌症中起重要作用。通过抑制5-脂氧合酶激活蛋白(FLAP)的活性,可以阻断白三烯合成。靶向FLAP的化合物可充当广谱白三烯调节剂,具有广泛的应用前景。但目前市场上并没有靶向FLAP的药物。本论文的主要工作如下:(1)利用多种机器学习算法,建立了 FLAP抑制剂的分类模型。从FLAP的配体入手,建立了全面的FLAP抑制剂活性数据库(2112个抑制剂),分别计算了 5种指纹描述符:Avalon、扩展连接指纹描述符(ECFP4)、MACCS、RDKit指纹(RDK)、拓扑扭转指纹(TT)。利用支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)、多层感知机(MLP)和梯度提升树(XGBoost)建立了 25个区分FLAP抑制剂活性水平的分类模型。SVM和XGBoost算法适合于构建FLAP抑制剂的分类预测模型,ECFP4和TT适合于用来呈现分子结构与FLAP抑制剂活性的关系。由ECFP4和SVM组合构建的SVM-ECFP4模型的性能最好,该模型的测试集准确率0.862,马修斯相关系数(MCC)为0.722。采用化合物到模型的距离(dSTDPRO)来定义模型的应用域,反映了模型预测未知化合物的可靠性。以减少模型覆盖率为代价,模型SVM-ECFP4的测试集准确性甚至能提高到0.946。通过比较dSTD-PRO与预测准确率之间的关系发现,预测结果的可靠性主要取决于化合物本身的结构,与建模算法和描述符类型相比,训练集化合物的组成情况对模型的性能影响更大。(2)采用K-均值(K-Means)对FLAP抑制剂的结构特征进行分类研究。针对FLAP抑制剂的结构特征,设计了一种适合对该数据集进行分类的10位自定义指纹。以自定义指纹作为K-均值(K-Means)模型的输入,自动将2112个FLAP抑制剂分成8个子集。聚类结果表明,FLAP抑制剂分子中大多数分子含有卤素、含N稠环、芳基噁二唑/噁唑烷烃、磺酰基、酰胺、三芳基氨-杂芳烃和二芳基氨-杂芳烃。FLAP抑制剂中芳香环之间的连接方式和手性碳的立体构型对活性有重要影响。(3)建立了 FLAP抑制剂的定量构效关系模型。收集了使用同一种酶学活性测试方法的1083个FLAP抑制剂,计算了每个抑制剂的CORINA和RDKit描述符。采用多元线性回归(MLR)、支持向量机回归(SVR)和随机森林回归(RFR)三种方法建立了 6个定量预测模型。测试集的决定系数(R2)在0.476到0.670之间,测试集的均方根误差(RMSE)在0.617到0.490之间。使用SVR和RFR算法构建的模型比MLR构建的模型表现更好,RDKit分子描述符更能体现FLAP抑制剂分子结构与活性的关系。采用组合多个模型的方式建立了 3个共识模型。最佳共识模型对测试集的R2达到了 0.690,RMSE低至0.474,相比组合前的单个模型都有巨大的提高。FLAP抑制剂分子的氢键供体数、疏水性,电荷分布和电负性对活性有重要的影响。本研究中开发的模型可以用来对活性测试前的化合物进行筛选。总结出的结构活性关系可以帮助药物化学家设计出更高活性的分子和更安全的FLAP候选药物。