论文部分内容阅读
肝细胞癌(hepatocellular carcinoma,HCC)在我国分布广,年新增40万肝癌患者;肝细胞癌致死率高,仅我国平均每年约有38.3万人死于肝细胞癌,占全球肝癌死亡病例数的51%。肝癌的转移复发是造成肝癌患者死亡的主要因素,因此,研究肝癌在侵袭转移发生发展过程中的分子机制有着重要的意义。肝癌的发生、发展和转移涉及的环节多,累及基因本身、转录、翻译和蛋白质翻译后修饰水平的复杂调控,参与其中的基因数目众多。组学技术的快速发展,不同层次和类型的组学数据获取及分析方法的日趋成熟,为系统分析肝癌转移的分子机制研究创造了条件。多组学数据整合分析研究涉及到多学科的交叉,容易出现两方面的问题。一方面有关工具开发的多组学数据整合分析研究侧重于算法与软件的研发,对生物学问题的理解不够深刻,开发的工具缺乏生物学问题的应用;另一方面有关疾病的多组学数据整合分析研究侧重于生物学问题,研究涉及的多组学数据层次偏少,对多层次组学数据的整合过于简单。针对上述问题,本研究以转移潜能递增的肝癌细胞系模型作为研究对象,通过整合不同层次的组学数据,建立从组学原始数据出发的完整的多组学数据整合分析流程;利用该流程系统地探究不同肝癌转移潜能细胞系在基因、转录和蛋白质水平变迁的规律。肝癌转移潜能细胞系具有相同的遗传背景,而随着肝癌转移潜能细胞系转移潜能的增强,模型系统在基因水平和蛋白水平都发生了相应的变化。我们认为这种变化会随着转移潜能的增强呈现出一定的趋势和方向性。为了证明这种方向性,我们采用了多组学数据整合分析流程对模型系统进行整合分析。通过组学原始数据处理和质量控制,包括基因变异检测分析、基因表达丰度定量分析和蛋白表达丰度定量分析。在基因水平,共同鉴定到224个变异基因;在转录水平,共同定量到17032个基因;在蛋白水平,共同定量到5654个蛋白。其中转录组、蛋白质组共同定量5405个基因/蛋白。进一步通过组学数据的整合分析,我们印证了肝癌转移潜能细胞系多组学数据随转移潜能规律性变迁。进而采用主成分分析和差异表达基因/蛋白筛选的方法,得到227个和肝癌转移潜能增强显著相关的候选基因/蛋白。这些基因根据表达模式的相似性可被分成三个模块。其中一个模块在细胞周期进程、纺锤丝形成、染色体分离等生物学过程显著富集,蛋白质主要分布于染色体着丝粒、动粒、微管骨架蛋白等和细胞周期、运动密切相关的区域,可能在肝癌转移潜能细胞系转移潜能递增的过程中发挥着促进细胞增殖和迁移能力的作用;其余两个模块在生物膜结构的融合、与未折叠蛋白结合、调控相关受体信号通路等生物学过程显著富集,可能起着信号传递与调控相关信号通路的作用。变异基因和候选基因/蛋白在细菌入侵上皮细胞、甲状腺癌、柠檬酸循环等代谢通路中显著富集,其中细菌入侵上皮细胞通路涉及到蛋白与细胞表面受体蛋白相互作用后起始信号级联反应,并导致细胞膜和细胞骨架的变化,可能与肝癌转移潜能细胞系转移潜能增强相关。在细胞水平得到的多组学数据整合分析结果,在人体内是否具有相同的结论,需要在大规模人群样本中进行验证。通过对TCGA、HPA大规模人群样本的数据库进行数据挖掘与检索,我们发现在肝癌转移潜能细胞系鉴定的224个变异基因中,有191个可在TCGA数据库肝癌人群样本中检测到,占总鉴定的224个基因数的85%。在227个和肝癌转移潜能细胞系转移能力增强显著相关的候选基因/蛋白中,有39个基因的表达量和肝癌不同病理学分期显著相关。我们发现其中的ZWILCH、NUF2、CENPQ、ZWINT、DLGAP5和CD2AP基因,其转录水平随着癌症分期正相关,且与癌症患者的生存预后负相关;DLGAP5和CD2AP蛋白在肝癌组织中也高表达,显示我们鉴定的候选基因DLGAP5和CD2AP可能与癌症的发生发展进程密切关联,证明我们建立的技术体系的有效性。综上,我们建立了由组学原始数据处理和质量控制和组学数据整合分析流程组成的完整的多组学数据整合分析技术体系。基于该技术体系,我们印证了肝癌转移潜能细胞系多组学数据变迁的方向性;筛选、鉴定了和转移潜能相关的基因;探究这些基因在肿瘤转移发生、发展进程中的生物学功能。对大规模人群样本的数据挖掘,我们不仅验证了我们在系列肝癌转移潜能细胞系上的发现,还发现ZWILCH、NUF2、CENPQ、ZWINT、DLGAP5和CD2AP的高表达促进癌症的发生和发展进程。该技术体系的建立为复杂疾病的多组学数据整合分析的实现提供了技术方案。