论文部分内容阅读
纵观人类医学史,人类与癌症的斗争历史可以追溯到几千年前。过去几十年科学技术的飞速发展,推动了癌症治疗的不断进步,催生了化疗、放疗、分子靶向治疗、免疫治疗等新的治疗手段。在我国,癌症发病率逐年增加,严重影响人民健康和生活质量,消耗大量医疗资源,发展新的癌症诊疗手段一直是国家生物医药领域科技创新和发展的重点。 通过对各类型癌症发病机制的深入研究,特别是基因组测序技术在癌症研究中的应用,癌症被普遍认为是正常细胞经历一系列基因突变引起的,而癌症的异质性是癌细胞产生耐药性,癌症患者难治愈、高复发的重要原因。继美国之后,我国于2015年提出并开始实施“精准医疗计划”,旨在根据病人的基因组特征,指导临床用药。 近些年来伴随着功能基因组学的快速发展,与癌症相关的各种组学数据(基因组拷贝数变化、突变、甲基化数据以及转录组、蛋白质组、代谢组数据)正在快速积累,为癌症药物研发和精准医学发展提供大量契机。转录组数据是组学数据的重要组成部分,被广泛应用于生物医学基础和临床应用研究,如构建基因调控网络、寻找疾病标志物、药靶发现和鉴定、药物重定位研究等。而细胞扰动表达谱测量细胞在各种扰动条件下(基因沉默、基因过表达、小分子化合物作用、配体作用、基因敲除等)的转录组变化,通过与组织细胞在不同生理、病理、药物作用等条件下的基因表达谱印记进行对比和关联分析,可以建立基因-疾病-药物之间的联系。 大量实验证据表明,通过逆转癌症中特定基因的表达,可使癌细胞恢复至正常形态。因此,癌症治疗的一个可行方向就是发现癌症特异性关键驱动突变基因和特征性表达谱印记,进而以此基因或靶基因集合为靶点,挖掘具有抑制其表达或逆转靶基因集合表达从而使癌细胞向正常细胞转化的基因/药物,也就是具有癌症修正潜能的基因/药物。本研究拟基于大规模细胞扰动的表达谱数据,预测潜在的癌症修正基因/药物(组合)并系统分析其癌症修正潜能。主要的研究内容包括三部分:癌症表达谱印记数据集构建和分析工具建立;癌症修正基因预测与潜能分析;癌症修正药物预测与潜能分析。 第一部分,系统构建特征性癌症表达谱印记数据集与数据分析工具,为癌症修正基因/药物预测奠定基础。特征性癌症表达谱印记是描述和区别不同癌症类型的重要表型数据,反应了癌症状态与正常状态细胞在转录组整体基因表达水平的差异。因此其可靠性将决定预测的癌症修正基因/药物的合理性与准确性。本研究系统评价了表达谱在不同类型组织和细胞系,基因芯片和测序来源转录组数据之间的差异,综合确定6个筛选标准对公共来源的癌症细胞系和对应的正常细胞/组织表达谱数据集进行筛选,进而构建6种癌症类型(包括乳腺癌 MCF7,结肠癌HT29,肝癌HEPG2,肺癌A549和HCC515,黑色素瘤A375,前列腺癌PC3和VCAP的8个癌症细胞系)的特征性表达谱印记。富集分析结果显示计算得到的特征性癌症表达谱印记具有较好的代表性,确保了后续癌症修正基因/药物计算、预测的合理性。在数据分析工具建立过程中,需要考虑整合网络细胞印记库(Library of Integrated Network-Based Cellular Signatures,LINCS)数据本身存在的误差以及大数据量的计算需求。我们基于基因集富集分析,构建关联分析流程,并且采用并行计算技术加速分析流程,可以在一天内完成计算分析,具有较好扩展性。 第二部分,癌症修正基因预测与潜能分析。在 LINCS基因沉默/过表达表达谱数据预处理之后,我们结合第一部分构建的表达谱印记数据集与分析工具,预测得到8个癌症细胞系的癌症修正基因候选集合并系统评价其癌症修正潜能。接着,我们采用多组学数据分析预测得到的癌症修正基因,包括转录组数据分析、癌症相关基因分析、基因突变和拷贝数变异分析、核心基因分析、基因功能与通路分析、抗癌药物药靶分析、以癌症修正基因为靶点的抗癌药物敏感性分析,并且采用 LINCS其余细胞系表达谱数据进行交叉验证。分析结果一方面验证了我们预测结果的合理性和可靠性,同时也为我们进一步筛选药物以及癌症机制阐释、致癌基因/抑癌基因预测、癌症修正药物候选靶标预测提供线索。考虑到癌症广泛存在的耐药性问题,我们进一步探讨了联合致死效应,并且预测了癌症修正基因之间的联合致死性。最后,我们展示了癌症修正基因在细胞外微环境扰动分析中的应用。 第三部分,癌症修正药物预测与实验验证。基于第一部分构建的癌症表达谱印记数据集与分析工具,我们关联 LINCS小分子化合物扰动表达谱数据与癌症表达谱印记,预测小分子化合物的癌症修正潜能,得到8个癌症细胞系的癌症修正药物候选集。通过已知抗癌药物关联分析以及药物敏感性数据分析,系统评价了这些小分子化合物的癌症修正潜能。考虑到细胞系本身的差异,我们进一步采用LINCS其余细胞系小分子化合物扰动表达谱数据以及CMap表达谱数据对预测得到的候选癌症修正药物集合进行交叉验证与补充。相关文献证据证实了我们预测的药物的合理性。最后,我们预测了癌症修正药物之间的药物协同性,并计划对优选的癌症修正药物/药物组合进行多细胞系体外实验以及动物实验验证。 本研究展示了大规模细胞扰动表达谱数据在药靶发现和药物重定位中的应用,实现的方法也可以推广到其他疾病研究中,如病原体感染和阿尔兹海默症等。本文主要的创新点包括: 首次提出癌症修正潜能的概念,充分挖掘和利用细胞扰动反应表达谱数据的网络关联潜能,并基于此大数据建立癌症修正基因/药物发现的计算方法,为发现新型抗癌药物提供新的研究思路和策略。 采用多组学数据融合的方法综合筛选最具癌症修正潜能的基因和药物,建立多角度评价药物抗癌活性的系统分析方法,为癌症药物治疗提供新的候选癌症修正药物,适应癌症精准医疗的需求,为大幅度提高研发速度和成功率提供参考和借鉴。