论文部分内容阅读
第一部分多型胶质母细胞瘤突变、基因和miRNA表达数据的整合分析脑胶质瘤是由一系列遗传变异和环境干扰的复杂交互作用引起的。过去的研究很少关注遗传变异、基因表达和microRNA的变化是怎样整合形成网络一起作用并最终导致一系列复杂表型例如脑瘤的发生。我们以美国癌症基因组图谱项目旗舰计划产生的脑胶质瘤数据为基础展开研究,使用了包括601个基因在179对样本中突变数据信息;12042个基因在243个脑胶质瘤肿瘤组织、10个癌旁正常组织和1个细胞系中的表达数据;470个microRNA(miRNA)在240个肿瘤组织和10个癌旁正常组织的表达数据来进行分析。结果发现了与脑瘤相关的14个体细胞突变,其中8个是新发现的。同时发现了11个与脑瘤相关的LOH突变基因。其中9个突变基因与GBM的关系是首次报道。通过基因共表达网络分析,我们发现了15个对网络功能非常重要的基因,其中大部分是癌症相关的基因。我们也构建了microRNA共表达网络,发现了19个重要的microRNA,其中3个microRNA与脑瘤病人的生存期有关。我们将基于序列的预测方法与表达负相关的方法相结合,发现了3953个预测的miRNA.靶标基因对,14个已被文献发表的实验验证。使用通路富集分析我们发现19个重要miRNA靶向调控的那些基因主要参与癌症相关的信号通路、视感知器传递和神经系统相关的过程。我们进行了表达数量性状(eQTL)分析,连接突变、表达和脑瘤表型相关的通路。对于体细胞突变,我们发现了4个基因顺式数量性状区间(cis-eqtl):TP53, EGFR.NFl和PIK3C2G;262个基因反式数量性状区间(trans-eQTL)以及26miRNA反式数量性状区间。对于LOH突变,我们发现2个基因顺式数量性状区间:NRAP和EGFR:409个基因反式数量性状区间以及27个miRNA反式数量性状区间。我们的结果表明多维数据的整合分析能够帮助我们揭开肿瘤发生和进展的机制。第二部分胶质母细胞瘤拷贝数变化的全基因组关联分析拷贝数变化是基因组上一段区域长度约为1KB~3MB的重复或者缺失,被认为是癌症发生的重要风险因子。我们采用了癌症基因组图谱项目Affymetrix Genome-Wide Human SNP Array 6.0芯片产生的221个肿瘤样本,28个癌旁正常组织样本数据来进行分析。我们使用改进的隐马尔科夫模型从芯片的906600个CNV标记检测出163024 CNV区间。关联检验发现有104个CNV区间在脑胶质瘤病例对照组中差异明显(Bonferroni矫正P值<3.70E-7)。我们以基因和通路为单位对CNV区间进行了分组关联检验。检测出169个和脑胶质瘤显著相关的基因(P值<4.77E-6),其中包括原癌基因BCAS1,抑癌基因CAMTA1,APC和CSMD1,转录因子ELF2,和转录激活基因ETV1,CREB5和ZHX3。我们进而找出了15个脑瘤显著相关的通路(FDR<0.05)。这些通路包括:细胞色素P450介导的异源物质代谢通路,钙离子信号通路,轴突导向通路,大肠癌通路,紧密连接(Tight junction)通路,eIF2调控通路,双链RNA诱导的基因表达通路,脑胶质瘤通路,聚糖结构合成,Jak-STAT信号通路,细胞色素P450药物代谢通路,角质形成细胞分化通路,端粒酶RNA元件基因(hTerc)转录调控,经Akt/ mTOR调节的骨骼肌肥大通路,BCR信号通路。同时我们进行了CNV与基因表达和miRNA表达之间的数量性状区间分析,结果发现这169个基因里的拷贝数变化显著影响到19microRNAs和410个基因的表达。其中3个差异表达的microRNA和90个差异表达的基因被18个包含拷贝数的基因调控。这些结果为发现脑胶质瘤的发病机制及其药物靶标提供了重要线索。第三部分肿瘤组织中遗传和表观遗传因素对基因表达的相对贡献基因表达受到突变、SNPs. CNVs等遗传学因素和miRNA.甲基化、组蛋白修饰等表观遗传学变化的调节。理解遗传和表观遗传学变异对基因表达调控的一个重要问题是估计SNPs、CNVs、甲基化和miRNA变化对基因表达贡献的比例。之前比较流行的估计各种因素对表达贡献的方法主要是通过单变量回归来实现的,但存在单个变量遗传效应很小,但联合起来对表性差异贡献很大的情况,而且单变量分析也忽视了不同变量之间的相互作用。本文将扩展使用所有SNPs来解释对数量性状贡献的方法,估计所有基因组学和表观组学变异对于基因表达的贡献。可用的遗传和表观遗传学信息包括上百万的SNPs的基因型、上百万的CNVs标记的拷贝数、几万个甲基化位点变化值和几百个miRNA的表达量。超高维的变量对数据分析产生了巨大的挑战,本文采用稀疏流形学习的局部线性嵌入算法对高维变量进行降维,然后用降维后的数据作为输入变量进行LASSO回归分析来估计因素对基因表达的贡献。我们将本方法用于TCGA项目两种癌症:胶质母细胞瘤(198个肿瘤组织样本)和卵巢癌的数据(512个肿瘤组织样本)。在两种癌症中我们都观察到:肿瘤组织中的基因表达主要由:niRNA.甲基化、CNV来解释,并且miRNA和甲基化对基因表达的调节作用比CNV和SNP可能更强更直接。SNPs对miRNA和甲基化的调节作用很小,但CNV变化对甲基化的贡献不可忽视。观察到的现象在两种癌症中能够重复。