论文部分内容阅读
目的前列腺癌是欧美等发达国家和地区最常见的男性恶性肿瘤之一,其死亡率已居各种癌症的第二位。前列腺癌的发生是多种调控因子共同作用的结果,然而前列腺癌的发生机制至今尚未明确。那么如何寻找治疗前列腺癌的有效靶点成为了亟待解决的问题。随着生物大规模分型技术的发展使全基因组范围寻找前列腺癌风险靶点成为可能,如单核苷酸多态性(Single Nucleotide Polymorphism, SNP)位点分型。在这项研究中,全基因组关联研究(Genome-Wide Association Studies, GWAS)通过大量比较疾病患者(病例,case)和相同条件下的无该疾病的人(对照,control)的SNP-表型关联来寻找疾病的潜在风险靶点。另外一种方法是通过基因芯片技术大规模筛选前列腺癌的差异表达基因,然后通过基因本体、通路富集分析或基因网络分析对这些差异表达基因进一步筛选以获得潜在的基因治疗靶点。但以上两种研究方法都具有一定的局限性。虽然全基因组关联研究发现了大量的疾病风险SNPs,但相对全基因组SNPs来说仍然只是极小的一部分。而且研究发现绝大部分报导的SNPs都不处于基因编码区,这就意味着如何来解释这些SNPs的功能是整个研究最大的难题。另外,基因差异表达筛选旨在寻找单个或多个最具可能的致病基因,然而这些基因的致病机制却没有得到有效的阐明,如在整个疾病的生物学过程中这些基因之间或与其他基因是否有相互作用,是如何相互作用的?方法一、前列腺癌风险位点的后GWAS功能分析1.提取GWAS Catalog数据库报导的前列腺癌的风险SNPs,通过连锁不平衡(linkage disequilibrium,LD)获得所有可能的风险SNPs;从文献及公共数据库搜集淋巴细胞系(lymphoblastoid cell lines,LCLs)相关的表达数量性状座(expression Quantitative Trait Loci,eQTL)数据;2.使用ANNOVAR软件对所有SNPs进行注释分析;使用UCSC数据库现有的已知调控数据对所有SNPs进行注释分析;使用eQTL对非编码区的SNPs进行注释分析;获得前列腺癌关联基因;3.对前列腺癌关联基因进行基因本体(Gene Ontology,GO)、通路富集分析;建立并分析前列腺癌特有的转录调控网络。二、前列腺癌关联SNPs显著富集在cis-eQTL和转录因子结合位点(transcriptionfactor binding sites,TFBS)1.定义前列腺癌GWAS中p<10-3的SNPs为高关联SNPs;从美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)dbGaP数据库下载GWAS数据:The Cancer Genetic Markers of Susceptibility(CGEMS)和The Multiethnic Cohort(MEC);从公共数据库seeQTL和RegulomeDB中分别提取eQTL和TFBS数据;2.分别使用randomization和permutation方法检验高关联SNPs是否显著富集于eQTL和/或TFBS;3.从GWAS Catalog数据库提取报导的癌症关联SNPs,使用randomization检验这些SNPs的eQTL和TFBS富集情况;4.对eQTL和TFBS的富集结果进行整合分析,获得潜在功能SNPs靶点。三、基于GO的前列腺癌基因共表达模块1.从前列腺癌基因表达芯片数据和GO中生物过程(biological process,GO_BP)基因集(term)出发,构建每个term的基因表达矩阵;2.利用WGCNA计算每个GO_BP term在两个独立前列腺癌基因表达矩阵间的保守程度;3.利用WGCNA对每个保守的BP_term建立共表达scale-free网络并进行聚类分析,获得共表达模块;4.计算共表达模块的显著性:1)计算每个共表达模块的eigengene表达,并判断模块是否在疾病-对照(case-control)组间存在差异表达,2)如果模块存在差异表达,则进一步计算模块的保守程度;5.对4中得到的重要模块进行基因富集分析,如eQTL、拷贝数变异(CopyNumber Variation,CNV)和突变(Mutation)基因集;6.如果模块在显著富集eQTL基因的前提下,也能在CNV和/或Mutation基因集中显著富集,这个模块将被定义为前列腺癌风险性模块。我们进一步对这些风险性模块进行转录因子(transcription factor,TF)和小RNA(microRNA,miRNA)富集,获得能调控这些模块的TF和miRNA。同时我们也检验了这些富集的TF基因的差异表达情况。结果一、前列腺癌风险位点的后GWAS功能分析从GWAS Catalog中我们一共提取了49个SNPs,经过LD计算一共获得1828个前列腺癌潜在风险SNPs。ANNOVAR注释表明有8,599,377,4,12,6和10个SNPs分别位于外显子,内含子,剪切位点,非编码RNA,3’UTR,5’UTR,基因上游,基因下游区域,而其余的852个SNPs则位于非基因区。UCSC注释结果表明1828个SNPs中,有284个SNPs位于UCSC定义的调控区域内,而这284个SNPs仅包含了86个非基因区的SNPs。对所有非基因区SNPs而言,eQTL比对解释了其中138个SNPs。综合ANNOVAR注释,eQTL比对结果及GWAS Catalog本身报导的基因,我们共得到了205个前列腺癌风险基因,其中41个来自ANNOVAR注释,151个来自于eQTL比对,33个来自GWAS文献报导。通过GO及通路富集,我们发现这些基因能有效的富集在癌症相关的通路上,如细胞死亡调控,细胞凋亡,细胞增殖等。通过分析前列腺癌调控网络,我们发现了一些重要的癌症调控因子,如IGF-1/IGF-2受体,SP1,CREB1,AR等转录因子。二、前列腺癌关联SNPs显著富集在cis-eQTL和转录因子结合位点(transcriptionfactor binding sites,TFBS)通过randomization和permutation计算结果对比,我们发现在前列腺癌GWASSNPs含有相对较少eQTL SNPs(eSNPs)情况下,randomization会导致假阴性,permutation则更为准确。富集分析发现白种人群的GWAS SNPs显著地富集在cis-eQTL和TFBS,但在美国黑人和日本人群中,我们却并没有发现这种显著的富集模式。同时我们对GWAS Catalog的SNPs进行分析,也发现了这一种群差异性的富集模式。另外对CGEMS数据的整合分析我们发现了2个并没有在GWAS平台中出现的功能SNPs,rs2861405和rs4766642,可以通过eQTL和TFBS行驶调控功能。三、基于GO的前列腺癌基因共表达模块首先我们发现了118个GO_BP terms在两个数据集间(GSE17951,GSE6956)具有较高的保守性(Zsummary>5)。利用这118个term的基因表达矩阵,我们共建立了548个共表达模块,其中有294个模块和前列腺癌有显著关联(p <0.05)。对这294个模块进一步分析,我们发现有55个模块在GSE17951和GSE6956间具有很好的保守性(Zsummary>5)。然后我们使用eQTL、CNV和Mutation基因集对这55个模块进行富集分析,并发现了5个前列腺癌风险模块M1~M5。TF富集分析结果表明M1和M5模块主要被NFAT调控,M2,M3和M4模块主要被SP1调控;miRNA富集分析表明M1和M3被has-miR-19a调控,M4和M5被has-miR-15a调控,M2被has-miR-200b调控。结论一、我们建立了系统生物学水平上前列腺癌GWAS SNPs的整合分析。通过注释、GO/通路富集和调控网络构建能有效阐明SNPs的作用机制,特别是那些位于非基因区的SNPs的调控功能。二、前列腺癌关联SNPs的调控机制具有种群差异性,即白种人群的关联SNPs主要通过eQTL和TFBS这两种方法来调控基因的表达,而美国黑人或日本人群的关联SNPs可能通过其他方法来进行调控。三、通过建立及分析基于GO的前列腺癌共表达模块,我们回答了(1)哪些GO项与前列腺癌潜在相关,(2)GO项的哪些基因的可以形成共表达模块,(3)哪些共表达模块与前列腺癌相关,(4)哪些共表达模块能显著富集癌基因的信号以及最终发现的共表达模块又是由什么遗传因子调控的。