论文部分内容阅读
在开发新药的过程中,传统方法具有周期长、开销大、盲目性强以及药物作用机理不明等显著缺点。随着人类基因组计划的完成以及生物信息学技术快速发展,推动了计算机辅助药物设计的进步。药物与受体蛋白之间交互作用的鉴定是计算机辅助药物设计在药物开发进程中至关重要的环节。生物实验的方法费时费力,而目前研究此类问题的计算方式大都是基于蛋白质三维结构信息的,而对于数量众多的结构未知的蛋白质,必须通过结构已知的同源蛋白来匹配和构造此蛋白质的结构,但许多蛋白并不能找到其结构已知的同源蛋白,因此基于氨基酸序列导出的特征进行药物与蛋白交互作用研究是有益的。本文基于氨基酸序列导出的特征和药物化合物分子指纹描述符特征,结合机器学习方法和模式识别计算理论,开发了一种新的预测药物与受体蛋白交互作用的预测器。在新药研发的过程中,几类蛋白诸如具有酶活性的受体、含离子通道的受体、G蛋白偶联受体(GPCRs)和核受体代表了当前药物受体的绝大多数,是人类体中应用最成功最广泛的受体蛋白。因此,本文对这四类受体蛋白在与药物交互作用方面以计算方式进行了深入的分析和比较,为生物制药提供高效可靠的辅助性研究。本文的主要工作和可能的创新点概括如下:(1)基于蛋白质理论及相关知识,针对氨基酸序列的数字序列模型构建问题,在数据层融合了各种氨基酸序列信息如伪氨基酸成分、PSSM矩阵、物理化学属性、二联体、灰色动态因子等信息。此模型不仅简单,而且包含丰富的物理化学和遗传进化信息。(2)针对基于分子指纹的药物分子结构数值序列描述方法的研究,将药物结构用离散的数字序列表示,此方法不仅能有效的描述分子的结构信息,还具有计算便捷的优点,效果显示非常理想。(3)设计了针对四类受体蛋白的分类预测器,所设计的四类预测器准确率比现有分类方法都有较大的提高,对未考虑数据非平衡性和考虑数据非平衡性问题出现的分类结果进行了较为深入的分析。(4)构建了界面友好的在线预测器网站,说明详细,使用简单,极大方便了生物学家及时在线使用。