论文部分内容阅读
蛋白质在生命过程中发挥着重要作用,蛋白质往往通过与配体的相互作用,实现其生物学功能,例如细胞遗传信息的传递、细胞代谢、物质运输和信号转导等。因此,蛋白质与配体分子的相互作用研究,对发现蛋白质功能具有十分重要意义。本文首先通过分析和预处理获得了可靠的数据集,然后融合三维几何计算方法与数据挖掘技术,构建出蛋白质结构分析数学模型。我们提出了一种改进的描述蛋白质表面结构形态计算方法,同时结合蛋白质物理化学性质,实现了DNA结合蛋白质(DNA-binding Proteins)和RNA结合蛋白质(RNA-binding Proteins)分类预测,取得了较好的实验效果。此外,针对蛋白质与小分子的复合物数据,分析了蛋白质与小分子复合物的结合位点特征,实现了蛋白质小分子的结合位点预测。全文工作包括两个部分:(1)DNA/RNA结合蛋白结合区域分析与分类预测。蛋白质-核酸的相互作用研究对理解生命活动具有重要意义。我们针对DNA/RNA结合蛋白的结合区域,计算出结合区域中残基周边的分子体积和表面积,然后计算结合区域残基周边的表面形态,依据计算结果将残基分为三种类型:凸起型,平坦型和凹陷型。并进一步获得了蛋白结合区域的溶剂可及性和二级结构特征。通过对比发现,两种核酸结合蛋白的结合区域残基形态结构、溶剂可及性、二级结构存在显著的差异。基于这些特征构建出SVM分类预测模型,运用10折交叉验证方法进行分类预测,取得了较好的分类结果。(2)蛋白质与小分子结合位点的特征挖掘及分类预测。蛋白质与小分子结合位点的研究对药物研发及设计具有重要意义。目前传统的检测蛋白质小分子的结合位点的实验方法,费用高昂且耗时耗力,例如针对某一特定配体的蛋白质小分子开发的研究工具往往存在效率较低,难以推广使用的缺点。文章中,我们提出了一种基于XGBoost模型的分类预测方法,通过分析蛋白质的进化信息、物理化学性质,获得了高维的序列特征,使用平均降低准确率法(mean decrease accuracy)筛选出重要特征,最终构建的分类模型,取得了非常显着的预测效果。