论文部分内容阅读
泛素和类泛素偶联是最重要的蛋白质翻译后修饰之一,负责调控各种各样的生物学过程。在真核生物中,泛素化和其它类泛素修饰有相似的酶级联E1(泛素激活酶)-E2(泛素偶联酶)-E3(泛素蛋白连接酶)。泛素和类泛素研究发现了一千多个具有活性的酶,但是不能确定它们的正确分类以及在物种中的准确数量。经过文献检索,已收集到E1,E2,E3和DUB的数量分别是26、105、1003和148。综合文献中的各种观点,所有酶分为1、3、19和7个家族。对活性结构域保守的E1,E2,E3和DUB家族,分别建立了1、1、15和6个隐马可夫谱。对活性结构域不保守的家族,采用了双向BLAST的同源搜索办法。经过实验验证的酶作为测试集,评估了预测性能和隐马可夫谱识别的特异性。最后,本文构建了泛素和类泛素偶联酶的数据库UUCD (Ubiquitin and Ubiquitin-like Conjugation Database),包含E1,E2,E3和DUB酶的数量分别是738、2937、46631和6647,这些酶分布在70种真核生物中。利用泛素和类泛素偶联酶,可以分析泛素和类泛素偶联系统与复杂疾病的关系。在Cancer Gene Census和Drugbank这两个数据库中,发现只有27个癌症基因和16个药物靶点与人类的泛素和类泛素偶联酶相关。通过超几何分布的统计学分析,发现它们在泛素和类泛素偶联系统中不显著(P-value>0.05)。但是KEGG的分析结果显示泛素和类泛素偶联酶在小细胞肺癌相关的PI3K-Akt信号、细胞循环、自噬和p53信号通路中起着重要的作用。E3能特异性地识别底物,决定泛素化修饰的特异性。目前已开发有多种预测泛素化位点的工具,但它们不能揭示底物位点和E3的关系。通过文献检索,本文发现1027个具有E3特异性的位点。单个位点可能对应多个E3,按照位点和E3的一对一原则,整合出1214对site-E3组合。根据UUCD数据库中E3的分类原则,全部site-E3组合可分为类、组、亚组、家族和个体五种水平。在家族水平上可分为10个数据集,在个体水平上可分为92个数据集。E3特异性的位点预测选在家族和个体水平上进行。训练过程采用GPS2.2(Group-based Prediction System, version2.2)算法中的模体长度选择、权重训练和矩阵突变。每个数据集的cutoff分为high, medium和low三种水平,分别对应于假阳性率(False positive rate, FPR)为2%、6%和10%时的阈值。根据上述分类、训练结果以及cutoff设置,本分开发了具有层次分类结构的E3特异性的泛素化位点预测工具GPS-PLUB1.0,可以预测10种E3家族和92种E3个体特异性的泛素化位点。此外,GPS-PLUB1.0可对实验发现的141076个泛素化位点进行大规模预测。泛素偶联类型是底物位点泛素化的具体表现形式,包括单聚泛素化和不同链类型的多聚泛素化。每种泛素偶联类型能决定底物的功能。许多泛素化研究难以揭示底物的E3酶,但是容易验证底物的泛素偶联类型。大量位点泛素偶联类型数据的产生,迫切需要预测工具对数据特征进行整合。通过文献检索,收集到1485个含泛素偶联类型的位点。单个位点可能对应多个泛素偶联类型,按照位点与泛素偶联类型的一对一原则,整合出2122对位点与泛素偶联类型的组合。所有组合可分为2个组、2个亚组和7个家族,组成11个数据集。数据集的训练过程采用了GPS3.0算法。综上所述,生物信息学在泛素和类泛素偶联研究中有着重要的应用。利用生物信息学中的方法,构建了泛素和类泛素偶联的酶数据库、E3特异性的泛素化位点预测工具和泛素偶联类型的预测工具,并分析了泛素和类泛素偶联系统与复杂疾病的关系。