论文部分内容阅读
G蛋白偶联受体(G protein coupled receptors,简称GPCRs)是生物体内最大的跨膜蛋白超家族,通过与G蛋白偶联,GPCRs在细胞内外信号跨膜传导的过程中承担着重要角色。GPCRs也是药物史上最有价值的药物靶标,在目前已知的药物靶点中,GPCRs靶点约占总数的50%。而目前针对GPCRs的药物多只针对30多种GPCRs,它们仅是GPCRs家族中的一小部分。因此挖掘GPCRs作为药物靶标有很大的空间。研究GPCRs-G蛋白偶联特异性可以帮助进一步了解GPCRs跨膜蛋白的功能和胞信号转导机理,从而为药物的研发提供新思路。
为了更大限度地挖掘GPCRs序列中所蕴含的结构功能信息,本研究首先从gpDB数据库中整理数据集,然后采用不同的特征提取方法对GPCRs不同序列区域进行提取特征,结合支持向量机方法,针对单偶联和多偶联分别构建模型。本研究的创新之处归纳如下:
(1)从gpDB数据库中整理出所有已知的GPCRs-G蛋白偶联信息,构建了本实验的GPCRs样本集。与先前研究相比,本研究包含更多GPCRs序列。
(2)GPCRs的每个胞内区域对偶联特异性结果的影响不同,本研究分别对每个区域进行实验。在先前的研究无相关的内容。
(3)对G蛋白单偶联和多偶联分别构建偶联特异性预测分类模型。目前的研究大多仅局限于构建单偶联分类模型。
在单偶联特异性实验中,本研究采用十重交叉验证和独立数据集方法验证单偶联模型的性能。十重交叉验证的总体准确率为91.8977%。独立数据集预测的总体准确率为96.063%。在多偶联特异性预测实验中,本研究采用五重交叉验证和留一法验证多偶联模型的性能。五重交叉验证的总体准确率为84.4595%,留一法验证法的总体准确率为84.4865%。实验结果显示,本研究采用的方法可以有效地用于G蛋白偶联特异性预测。