论文部分内容阅读
膜蛋白在整个细胞生命体活动中扮演着极其重要的角色。负责包括离子运输、小分子转运以及复杂细胞信号转导过程等在内的多种生命活动。同时,膜蛋白也是很多药物的靶点,据估计将近60%的药物直接作用于膜蛋白上。然而生物学家目前所掌握的膜蛋白结构、功能信息还比较有限,这主要是因为用实验手段进行膜蛋白的结构测定以及功能研究较为复杂,科研人员难以分离出稳定的膜蛋白样品,用于电子显微镜或者X-射线晶体分析。膜蛋白结构、功能的研究仍然是生物学界最具挑战的研究领域之一。本学位论文以膜蛋白的结构、功能为研究对象,综合应用多种统计学和生物信息学方法,探讨膜蛋白的序列-结构、序列-功能关系的研究新方法,希望能够发展出以膜蛋白序列信息为基础的,结构、功能预测模型,解决膜蛋白研究中的结构预测、亚细胞定位预测、功能预测等重要研究问题。论文第一章,我们重点介绍了膜蛋白的结构、生命合成机理、折叠方式以及功能分类。然后介绍了基于生物信息学技术的膜蛋白结构、功能预测模型。最后阐述了本文所用到的膜蛋白数据库信息、序列表征以及建模方法。论文第二章,我们从输入信息简洁、预测方法简单、预测结果准确率高等原则出发,应用最小二乘支持向量机方法,建立了高效的α-螺旋膜蛋白跨膜氨基酸残基埋藏情况(残基暴露于磷脂分子层或者埋藏于螺旋结构当中)的预测模型。该方法使用划窗技术提取目标残基(这里指被预测残基)周围的序列信息。然后使用结构、物理化学特征、保守性指数对划窗的序列信息进行表征,并使用递归特征消去(Recursive feature elimination, RFE)方法选取和埋藏情况高度相关的序列特征。最后将所选取的描述符输入最小二乘支持向量机模型,用于建立跨膜氨基酸残基埋藏情况的预测模型。我们所建立的预测模型所选择用的训练集包括43条膜蛋白,模型的预测能力使用10条未参与建模过程的α-螺旋膜蛋白进行外部验证。结果表明,我们所建立的模型可以得到令人满意的预测结果。另一方面,通过应用特征选择方法,我们找到了影响膜蛋白跨膜残基埋藏情况的重要序列信息。埋藏情况预测模型只能指出暴露于磷脂分子层的跨膜残基,但是却不能给出其暴露面积的多少。为此,我们发展了可以预测α-螺旋、p-折叠跨膜残基的溶剂可及化表面积的定量预测模型。整个模型的建立是基于78条α-螺旋膜蛋白、24条p-桶装膜蛋白所组成的训练集样本。我们首先使用遗传信息表征划窗序列,并根据随机森林算法返回的描述符残差平方和(Residual sum of squares)选取和可及化表面积高相关的序列特征。最后,将选取的描述符输入支持向量机以及随机森林算法建立模型。溶剂可及化表面积的预测结果显示,随机森林算法的预测能力和拟合能力优于支持向量机。获取膜蛋白的亚细胞定位信息,是了解膜蛋白功能信息的重要途径之一。在本论文的第四章,我们发展了一种可以有效鉴别真核细胞膜蛋白全部亚细胞定位的预测模型。该模型的建立步骤包括:首先从UniProt数据库上下载全部膜蛋白序列、亚细胞定位信息,将其随机分为训练集和测试集。然后,通过使用序列的遗传信息、结构、物理化学性质描述膜蛋白序列特征,并运用结合周氏函数的K-临近算法建立预测模型。通过留一法交互验证、外部测试集将所建立的预测模型进行检验,结果表明我们所建立的模型具有良好的拟合能力和预测能力,预测结果令人满意。更为重要的是,由于周氏函数的引入,该模型可以直接应对具有多个亚细胞定位的膜蛋白复杂分类问题。论文第五章,我们提出了基于序列的膜蛋白功能预测模型。该模型可以用于膜蛋白的26个功能分类预测,并且可以直接返回一条膜蛋白的多个功能分类信息。同样,该模型完全从膜蛋白的序列信息出发,并采用基于序列的遗传信息、结构、物理化学信息对膜蛋白序列进行表征。交互验证以及外部测试集预测结果显示,该模型具有稳定的预测能力,可以用于膜蛋白的功能预测工作。