论文部分内容阅读
蛋白质翻译后修饰(Post-translational modification,PTM)是生物体内重要的调控手段,也是许多细胞信号事件的核心。翻译后修饰可以通过在蛋白质上添加不同的小分子基团而使蛋白质的理化性质、结构或活性发生改变,从而影响蛋白质的功能。翻译后修饰的类型众多,目前已知已达数百种,其中泛素化和磷酸化修饰存在范围较广、参与重要细胞学调控过程较多,其异常状态常常与多种人类疾病尤其癌症密切相关。近年来,随着高通量测序技术和质谱技术的飞速发展,许多与癌症相关的多组学数据包括蛋白质翻译后修饰数据呈井喷式增长,而如何高效整合、有效分析和利用这些数据,对癌症发生机制进行探讨,并且从中挖掘潜在的癌症重要调控因子,成为了相关领域亟待解决的问题。基于上述背景,本文以临床最为常见的恶性肿瘤肺癌为切入点,对肺癌相关功能翻译后修饰进行了系统的生物信息学研究。因目前尚无较为综合的泛素化/类泛素化相关数据库,我们首先构建了泛素/类泛素偶联调控因子数据库i UUCD 2.0。通过文献检索、隐马尔可夫模型预测与同源鉴定,我们整合了148种真核生物当中的136,512个泛素/类泛素偶联的调控因子,涉及74个家族的6类调控因子,包括1,230个泛素激活酶、5,636个泛素缀合酶、93,343个泛素连接酶、9,548个去泛素酶、30,173个泛素结合结构域蛋白质以及11,099个类泛素结构域蛋白质。更进一步地,数据库提供这些调控因子来自近70个公共数据库的详细注释信息,8种常见的模式生物得到了注释,包括人类、小鼠、大鼠、秀丽隐杆线虫线虫、黑腹果蝇、拟南芥、酿酒酵母和裂殖酵母,注释内容涵盖11个方面,包括癌症突变、单核苷酸多态性、m RNA表达、DNA和RNA元件、蛋白质相互作用、三维结构、疾病相关信息、药物和靶标信息、蛋白质翻译后修饰、DNA甲基化以及蛋白质表达或蛋白质组信息。i UUCD 2.0是迄今为止涵盖物种最多、调控因子种类最为齐全、家族分类信息最为系统以及注释信息最为全面的泛素/类泛素调控因子综合注释数据库,是极具价值的蛋白质翻译后修饰数据资源。由上所述,我们获得了多种翻译后修饰调控因子的详细注释,其中多个层面的信息都与癌症发生密切相关,例如癌症突变、m RNA表达、蛋白质翻译后修饰、DNA甲基化以及蛋白质组信息等等。为了能够将这些多层次的信息在癌症靶标发现研究方面得以运用,我们以肺癌为切入点,以目前为止最为全面的癌症组学公共资源TCGA(The cancer genome atlas)为数据来源,围绕翻译后修饰调控因子之一的蛋白质激酶,建立了多组学数据整合预测肺癌驱动激酶的算法流程。在本工作中,我们收集了TCGA数据库当中肺癌病人和正常肺部组织的多组学数据,包括体细胞突变数据、拷贝数变异数据、转录组数据、DNA甲基化27K数据,以及DNA甲基化450K数据,对这5个层面的数据进行了肺癌与正常样本之间的差异化分析,并以差异化分析结果为基础,以机器学习方法为手段,构建了肺癌驱动激酶预测模型。最后,我们成功运用该模型预测到36个潜在的肺癌驱动激酶,并在肺癌小鼠模型当中进行了功能验证。在该工作中,计算预测与实验手段相结合的方法,不仅大大提高了筛选癌症分子靶标的速度,节省了筛选成本,并且为类似的疾病相关研究提供了参考模板。在构建了上述从基因组、转录组和表观组层面发现肺癌驱动基因的算法流程之后,我们更进一步希望通过蛋白质组和修饰组层面的数据发现在癌症中具有重要功能的翻译后修饰事件。因此,我们依旧以肺癌为研究目标,以目前数据储量较大、研究手段较为成熟的磷酸化蛋白质组学作为研究材料,开发了肺癌磷酸化组大数据的跨引擎整合与分析流程。具体地,我们收集了232个肺癌样本和102个正常肺部组织样本,开发了囊括9种搜库工具的整合鉴定流程,最终得到肺癌磷酸化位点共155,711个,鉴定通量较单一工具鉴定方法提高最低约5%,最高约265%,在单个样本中的鉴定通量平均提高约87%。利用该流程,我们筛选出肺癌和正常样本之间的显著差异磷酸化位点共183个,来自于169个磷酸化蛋白质。更进一步地,30个得分最高的肺癌差异磷酸化蛋白质被挑选出来,并在肺癌A549细胞系当中进行功能验证,最后,我们成功筛选出18个对肿瘤生长具有显著影响的功能磷酸化蛋白质。在此过程中,我们通过解决跨样本和跨工具整合鉴定的技术问题,大大提高了磷酸化蛋白质组学的鉴定通量和鉴定准确性,建立了癌症磷酸化组大数据跨引擎整合鉴定的计算流程,最后利用该流程成功筛选出潜在的肺癌功能磷酸化事件。综上所述,本文围绕功能蛋白质翻译后修饰与肺癌的关系展开了一系列工作。首先,我们构建了具有多层面注释信息的泛素/类泛素偶联调控因子综合数据库,接下来,根据对翻译后修饰调控因子多个层面注释信息与癌症关系的思考,我们利用基因组、转录组和表观组层面的癌症数据构建了肺癌驱动激酶的预测方法,最后,为了在修饰组学层面上对癌症功能翻译后修饰事件进行发现,我们又建立了跨引擎整合鉴定肺癌磷酸化蛋白质组学的分析流程。基于上述翻译后修饰数据资源和分析流程的开发,我们提供了一整套利用癌症多组学数据进行功能翻译后修饰事件挖掘的新策略,为肺癌功能翻译后修饰位点鉴定、分子机制及调控途径研究提供了新方法和新思路。