论文部分内容阅读
结直肠癌是环境和遗传因素共同作用引起的恶性肿瘤,其高发病率和死亡率给人类健康造成极大危害。因此早期识别结直肠癌高危人群遗传标志物对于癌症预防和治疗具有重要意义。全基因组关联研究(Genome-Wide Association Study,GWAS)已发现超过140个结直肠癌易感位点,在解读结直肠癌遗传易感性方面取得重要进展。然而,研究表明目前所鉴定的易感位点仅能解释部分结直肠癌遗传度,仍有大量易感位点亟待发现。同时,由于大部分GWAS位点位于基因组非编码区,使得对其生物学机制的探究受到限制。可变多聚腺苷酸化(Alternative Polyadenylation,APA)是指前体m RNA在3’端加尾修饰时,受到一些原因的干扰影响多聚腺苷酸化加尾信号(Polyadenylation Signal Sites,PASs)选择,产生具有不同3’端非翻译区(3’untranslated Region,3’UTR)长度转录本的过程。APA作为一种重要的转录后调控机制,能够影响包括癌症在内多种疾病的发生发展,同时位于加尾信号或APA相关调控元件中的遗传变异被发现可导致基因APA过程紊乱进而影响癌症进展。因此,本研究以基因APA事件为癌症发生过程中的中间表型,首先在全基因组范围内系统鉴定影响32种癌症APA过程的遗传变异并将其定义为癌症APA数量性状位点(APA Quantitative Trait Loci,apaQTL)。随后基于结直肠癌apaQTL分析结果,并结合大样本量病例对照研究及多种分子生物学实验系统探讨可变多聚腺苷酸化相关遗传变异与中国人群结直肠癌发病风险的关联及其潜在生物学机制,进一步揭示结直肠癌遗传易感性,为高危人群的识别提供重要线索和依据。本论文共包括以下两部分:第一部分多癌症中可变多聚腺苷酸化相关遗传变异的鉴定及特征分析目的:整合基因组、转录组及表观基因组等多组学数据,在32种癌症中鉴定可影响APA过程的遗传变异,从而为阐明遗传变异在癌症中的作用机制提供新的方向。方法:首先从癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库中获取32种癌症样本的基因型数据、转录本APA数据以及样本其他临床信息(年龄、性别、肿瘤分期)。通过线性回归分析,在校正一系列混杂因素后系统分析基因型与转录本APA水平之间的关联,以错误发现率(False Discovery Rate,FDR)<0.05为显著性阈值,鉴定与APA水平显著相关的遗传变异并将其定义为癌症apaQTLs。随后对癌症apaQTLs进行功能特征分析,主要包括癌症apaQTLs位置分布分析、RNA相关特征分析、染色质开放调控元件富集分析、癌症apaQTL相关基因(apaQTL-related genes,a Genes)功能富集分析以及GWAS区域富集分析。结果:1.利用TCGA数据库中32种癌症类型共9 082例样本的基因型和转录本APA数据进行关联分析,在校正年龄、性别、肿瘤分期和人群结构等协变量后,总共鉴定得到703 331个癌症apaQTLs与16 571个APA事件显著相关(FDR<0.05)。2.进一步对703 331个癌症apaQTLs的属性特征进行系统注释。首先位置分布注释发现相较于非apaQTLs,apaQTLs主要富集于3’UTR,且更多地分布在转录终止位点附近。从机制角度分析,癌症apaQTLs可能通过改变多聚腺苷酸化加尾信号、RNA结合蛋白(RNA Binding Protein,RBP)和染色质开放调控元件结合位点进而影响基因APA过程。此外,癌症a Genes被发现显著富集于癌症关键信号通路中。最后通过对癌症apaQTLs数据和癌症GWAS数据进行联合分析,发现与非apaQTLs相比,癌症apaQTLs在GWAS区域显著富集,同时其在解释癌症遗传度方面也具有一定贡献。结论:本研究基于TCGA数据库中多组学数据,构建囊括32种癌症类型的apaQTLs图谱,并对其功能特征进行系统注释。研究成果不仅提供丰富的癌症apaQTLs资源库,更为癌症病因学研究提供重要科学依据。第二部分可变多聚腺苷酸化相关功能性遗传变异与中国人群结直肠癌风险的关联及机制研究目的:基于论文第一部分鉴定得到的结直肠癌apaQTLs结果,同时利用病例对照研究及生物学功能实验系统识别影响中国人群结直肠癌发病风险的功能性apaQTL位点,并阐明其致病的生物学机制,从而进一步揭示结直肠癌遗传易感性。方法:基于第一部分结直肠癌apaQTL分析结果,首先对结直肠癌apaQTLs进行功能特征系统注释,包括位置分布分析、RBP和染色质开放调控元件富集分析、a Genes功能富集分析以及GWAS区域富集分析。接着,整合结直肠癌apaQTLs和欧洲人群结直肠癌GWAS数据(包括17 789例病例和19 951例对照)筛选得到潜在致病位点。随后利用两阶段、多中心病例对照研究验证潜在致病apaQTL位点与中国人群结直肠癌发病风险的关联,第一阶段样本收集于北京地区共1 524例病例和1522例对照,第二阶段样本收集于武汉地区共4 500例病例和8 500例对照。最后通过一系列分子生物学实验,如c DNA 3’末端快速扩增实验、RNA-蛋白体外结合实验、CCK-8细胞增殖和克隆形成等实验深入探究致病apaQTL位点影响靶基因APA过程和结直肠癌发病风险的生物学机制。结果:1.基于第一部分结直肠癌apaQTL分析,共鉴定得到24 681个apaQTLs影响了704个基因的725个APA事件(FDR<0.05)。2.对上述24 681个结直肠癌apaQTLs进行功能特征分析发现:首先相较于非apaQTLs,apaQTLs在3’UTR和基因下游均显著富集(P<0.0001)。此外,apaQTLs还富集于多种RBP和染色质开放调控元件结合位点中(组蛋白修饰和转录因子,P<0.0001),靶基因功能注释发现a Genes富集于结直肠癌相关信号通路中。最后,整合结直肠癌apaQTLs和GWAS数据发现:与非apaQTLs相比,结直肠癌apaQTLs在GWAS区域显著富集(OR=3.08,95%CI=2.83-3.36,P<0.0001)。3.欧洲人群GWAS研究共鉴定得到1 201个与结直肠癌发病风险相关的apaQTL位点。其中位于12p11.21区域的rs1020670具有最显著的基因APA水平调控效应,可能影响靶基因DNM1L的APA过程,因此挑选rs1020670作为候选潜在致病位点。随后两阶段病例对照研究发现,rs1020670(C>G)与中国人群结直肠癌发病风险相关,相较于C等位基因携带者,G等位基因携带者结直肠癌发病风险显著升高(OR=1.22,95%CI=1.13-1.32,P=1.35×10-6)。4.生物学功能实验发现:rs1020670[G]通过促进RBP CSTF2T的结合使靶基因DNM1L 3’UTR缩短进而增加m RNA稳定性,最终导致其m RNA和蛋白表达水平上调。同时基因差异表达分析结果提示相较于癌旁组织,DNM1L在结直肠癌组织中表达水平增高,且进一步实验证明DNM1L的表达上调能够显著增加结直肠癌细胞增殖能力。结论:本研究基于结直肠癌apaQTL分析结果,结合人群流行病学研究,鉴定得到遗传变异rs1020670与中国人群结直肠癌发病风险显著相关。生物学功能实验证明,rs1020670(C>G)突变能够导致由CSTF2T介导的靶基因DNM1L异常可变多聚腺苷酸化,上调致癌基因DNM1L的表达水平,进而增加个体罹患结直肠癌风险,研究结果进一步揭示结直肠癌遗传易感新机制。