论文部分内容阅读
为了在分子水平上深入认识生命的本质,针对蛋白质序列、结构与功能的研究工作得到了广泛开展。对蛋白质相互作用的研究是其中的一个重点。蛋白质的相互作用一般是由结构域(domain)或者模体(motif)所介导的。高通量的检测方法得到了大量蛋白质相互作用的数据,但是这些数据却很少能提供关于相互作用界面(interface)的信息。为了弥补这种不足,一些在结构域水平上的研究工作逐渐被发展了起来。
Coiled coil是两股或者多股α螺旋相互缠绕形成的超螺旋结构,也是一种常见的介导蛋白质相互作用的结构域。在真核生物中有将近10%的蛋白质都含有coiled coil,但是目前还是缺少在基因组水平上对coiled coil相互作用的系统分析。因此,课题组内的其他成员使用酵母双杂交方法,检测得到了酿酒酵母中899个coiled coil之间的3495对相互作用。本文以这些实验数据为出发点,从多个角度对coiled coil相互作用进行了系统的研究。
基于以上数据,构建了一个coiled coil相互作用网络(以下简称为CCI网络),网络的节点是coiled coil,而网络的边则是它们之间的相互作用。这是仅针对一个结构域所构建的最大规模的相互作用网络。为了研究CCI网络的组织模式,本文从网络的拓扑结构、网络模体以及网络结构与生物学功能的关联三个方面进行了分析。另外,还将结构域水平的网络与基于已报道数据构建的coiled coil蛋白相互作用(CCPI)网络做了比较。
结构域水平的相互作用并不能完全反映其蛋白质水平上的相互作用情况。为了从实验数据中挖掘出高可信度的coiled coil介导的蛋白质相互作用(coiled coil mediated proteininteraction,以下简称为CCMPI),本文使用了一个多特征整合的计算策略。实验数据与数据库中已报道的CCPI网络重叠的部分,作为已确认的CCMPI;不重叠的部分暂时作为假定的CCMPI(putative CCMPI),将其收录到无标记数据集(unlabeled dataset)中。选取了一系列与进行CCMPI识别相关的特征,并计算了每个特征的似然度。根据这些特征的累积效果,为无标记数据集中的每一对相互作用都赋予了置信度打分(confidence score)。通过上述方法,共抽提出了1378对高可信度的CCMPI。将这些CCMPI映射到一系列的蛋白质复合物中,发现CCMPI和coiled coil蛋白的相对数量在细胞骨架、动粒复合体(kinetochore)、SNAREs复合体以及纺锤极体(spindle pole body)等大分子复合物中都是显著富集的。Coiled coil是介导这些蛋白质复合物行使功能的重要物理基础。
在结构层次上,coiled coil存在着knob—into-holes(KIH)这样一个显著的侧链堆积特征。研究表明,KIH是两条coiled coil链组装到一起的结构基础。为了深入理解coiled coil相互作用的分子机制,使用机器学习方法对两条序列能否形成KIH结构进行计算预测。首先,抽提蛋白质结构数据库PDB中收录的coiled coil晶体结构数据。然后,构建了一个完全基于序列特征的预测模型。通过对训练数据集进行十折交叉验证,以及应用到测试数据集上的效果来看,模型有着较好的预测能力。最后,使用酵母双杂交方法产生的coiled coil相互作用数据对模型进行了更为系统的测试。