癌症基因组遗传和表观遗传数据整合分析

被引量 : 1次 | 上传用户:shifujia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
第一部分多型胶质母细胞瘤突变、基因和miRNA表达数据的整合分析脑胶质瘤是由一系列遗传变异和环境干扰的复杂交互作用引起的。过去的研究很少关注遗传变异、基因表达和microRNA的变化是怎样整合形成网络一起作用并最终导致一系列复杂表型例如脑瘤的发生。我们以美国癌症基因组图谱项目旗舰计划产生的脑胶质瘤数据为基础展开研究,使用了包括601个基因在179对样本中突变数据信息;12042个基因在243个脑胶质瘤肿瘤组织、10个癌旁正常组织和1个细胞系中的表达数据;470个microRNA(miRNA)在240个肿瘤组织和10个癌旁正常组织的表达数据来进行分析。结果发现了与脑瘤相关的14个体细胞突变,其中8个是新发现的。同时发现了11个与脑瘤相关的LOH突变基因。其中9个突变基因与GBM的关系是首次报道。通过基因共表达网络分析,我们发现了15个对网络功能非常重要的基因,其中大部分是癌症相关的基因。我们也构建了microRNA共表达网络,发现了19个重要的microRNA,其中3个microRNA与脑瘤病人的生存期有关。我们将基于序列的预测方法与表达负相关的方法相结合,发现了3953个预测的miRNA.靶标基因对,14个已被文献发表的实验验证。使用通路富集分析我们发现19个重要miRNA靶向调控的那些基因主要参与癌症相关的信号通路、视感知器传递和神经系统相关的过程。我们进行了表达数量性状(eQTL)分析,连接突变、表达和脑瘤表型相关的通路。对于体细胞突变,我们发现了4个基因顺式数量性状区间(cis-eqtl):TP53, EGFR.NFl和PIK3C2G;262个基因反式数量性状区间(trans-eQTL)以及26miRNA反式数量性状区间。对于LOH突变,我们发现2个基因顺式数量性状区间:NRAP和EGFR:409个基因反式数量性状区间以及27个miRNA反式数量性状区间。我们的结果表明多维数据的整合分析能够帮助我们揭开肿瘤发生和进展的机制。第二部分胶质母细胞瘤拷贝数变化的全基因组关联分析拷贝数变化是基因组上一段区域长度约为1KB~3MB的重复或者缺失,被认为是癌症发生的重要风险因子。我们采用了癌症基因组图谱项目Affymetrix Genome-Wide Human SNP Array 6.0芯片产生的221个肿瘤样本,28个癌旁正常组织样本数据来进行分析。我们使用改进的隐马尔科夫模型从芯片的906600个CNV标记检测出163024 CNV区间。关联检验发现有104个CNV区间在脑胶质瘤病例对照组中差异明显(Bonferroni矫正P值<3.70E-7)。我们以基因和通路为单位对CNV区间进行了分组关联检验。检测出169个和脑胶质瘤显著相关的基因(P值<4.77E-6),其中包括原癌基因BCAS1,抑癌基因CAMTA1,APC和CSMD1,转录因子ELF2,和转录激活基因ETV1,CREB5和ZHX3。我们进而找出了15个脑瘤显著相关的通路(FDR<0.05)。这些通路包括:细胞色素P450介导的异源物质代谢通路,钙离子信号通路,轴突导向通路,大肠癌通路,紧密连接(Tight junction)通路,eIF2调控通路,双链RNA诱导的基因表达通路,脑胶质瘤通路,聚糖结构合成,Jak-STAT信号通路,细胞色素P450药物代谢通路,角质形成细胞分化通路,端粒酶RNA元件基因(hTerc)转录调控,经Akt/ mTOR调节的骨骼肌肥大通路,BCR信号通路。同时我们进行了CNV与基因表达和miRNA表达之间的数量性状区间分析,结果发现这169个基因里的拷贝数变化显著影响到19microRNAs和410个基因的表达。其中3个差异表达的microRNA和90个差异表达的基因被18个包含拷贝数的基因调控。这些结果为发现脑胶质瘤的发病机制及其药物靶标提供了重要线索。第三部分肿瘤组织中遗传和表观遗传因素对基因表达的相对贡献基因表达受到突变、SNPs. CNVs等遗传学因素和miRNA.甲基化、组蛋白修饰等表观遗传学变化的调节。理解遗传和表观遗传学变异对基因表达调控的一个重要问题是估计SNPs、CNVs、甲基化和miRNA变化对基因表达贡献的比例。之前比较流行的估计各种因素对表达贡献的方法主要是通过单变量回归来实现的,但存在单个变量遗传效应很小,但联合起来对表性差异贡献很大的情况,而且单变量分析也忽视了不同变量之间的相互作用。本文将扩展使用所有SNPs来解释对数量性状贡献的方法,估计所有基因组学和表观组学变异对于基因表达的贡献。可用的遗传和表观遗传学信息包括上百万的SNPs的基因型、上百万的CNVs标记的拷贝数、几万个甲基化位点变化值和几百个miRNA的表达量。超高维的变量对数据分析产生了巨大的挑战,本文采用稀疏流形学习的局部线性嵌入算法对高维变量进行降维,然后用降维后的数据作为输入变量进行LASSO回归分析来估计因素对基因表达的贡献。我们将本方法用于TCGA项目两种癌症:胶质母细胞瘤(198个肿瘤组织样本)和卵巢癌的数据(512个肿瘤组织样本)。在两种癌症中我们都观察到:肿瘤组织中的基因表达主要由:niRNA.甲基化、CNV来解释,并且miRNA和甲基化对基因表达的调节作用比CNV和SNP可能更强更直接。SNPs对miRNA和甲基化的调节作用很小,但CNV变化对甲基化的贡献不可忽视。观察到的现象在两种癌症中能够重复。
其他文献
没有程序,就没有权利的实现。这是现代法制社会的一项普遍定律。在一定程度上说,法治社会是由一套程序规则支撑的权利体系。
目的介绍去唾液酸糖蛋白受体(asialoglycoprotein receptor,ASGPR)介导的药物和基因肝靶向作用和机制,及其在治疗肝癌和乙型肝炎实验研究方面的最新进展。方法查阅和选取针对
面部带状疱疹是一种病毒引起的病变,引起上睑下垂者较少见。现报告1例如下。王×,男,28岁。1988年2月15日因面部疱疹一周而住院。急性病容,体温36℃,血压120/80mmHg。右前额
目的观察潜阳育阴颗粒治疗高血压病(阴虚阳亢)患者的临床疗效。方法 120例高血压阴虚阳亢证患者,随机分为治疗和对照组60例,均予依那普利和(或)非洛地平治疗,治疗组加用潜阳
电子商务的快速发展正在推动经济增长方式的转变,电子商务对国民经济的影响越来越大。电子商务将成为我推动我们经济持续快速增长的重要驱动力。本文从经济学角度来研究电子
射频识别技术(RFID)是从二十世纪90年代兴起的一项非接触式自动识别技术,近年来超高频(840-960MHz)射频识别技术由于识别距离远,识别速度快等特点得到广泛的关注和迅速应用。
本文主要介绍了会计电算化对企业发展的重要性,以及我国企业使用电算化的使用情况和将面临的各种问题,介绍了我国会计电算化的引入和使用状况。最后,分析我国中小企业使用中
随着我国电视节目市场竞争的加剧和传媒品牌意识的加强,不仅电视媒体内部以频道为主的节目竞争和广告竞争日益激烈,电视媒体与新媒体之间的竞争也在如火如荼的进行中。因此,
在当今,微小企业对社会发展的贡献越来越大,但融资难一直是微小企业面前一道不可逾越的鸿沟。而网络融资为广大微小企业开辟了一条融资新出路。本文对微小企业所面临的融资困