【中图分类号】R730.4 【文献标识码】A 【文章编号】2107-2306(2021)15--01
关键词:多组学数据;癌症;大数据
癌症是造成死亡人口最高的疾病,在中国,癌症已经成为人类头号死因[1]。其特点是细胞的相对不受限制的增殖可以侵入其他正常组织、转移到远处的器官。基因突变是癌症发生的关键之一,当人体内某个细胞获足够有利于自身的突变时,它将获得自主增殖、侵入组织和转移的能力,即癌症的发生。这种增殖、入侵、转移的能力也造成了癌症难以治愈的特性。发现并研究驱动正常细胞突变为癌症的基因一直是人类在研究癌症领域中的难题,因为大规模的测序研究受到测序相对较低的效率和较高的成本的限制。随着生物信息学迅速的发展,测序技术、测序数据的处理、生物信息学软件都有了很大的进步。人类也发现了许多与癌症发生、发展相关的基因。例如:弥漫性胶质瘤有几个基因的异常是常见的,但是在胃癌中,癌症的相关基因突变的研究却很少见。人类在这一研究领域中是很有发展空间的。这使得人类治疗癌症的手段也不断得到发展。例如:乳腺癌的治疗包括手术切除、放疗、化疗、内分泌治疗、分子靶向治疗、免疫治疗。这使得乳腺癌患者的存活率直线上升[2]。
癌症基因组图谱(TCGA)项目代表了癌症基因组学的一项重大进展,旨在通过基因组分析技术的应用来促进对癌症分子基础的理解,并最终提高诊断、治疗和预防癌症的能力。TCGA项目已经生成、分析并提供了代表30多种不同类型癌症的11000多个个体的基因组序列、表达、甲基化和拷贝数变异数据[3]。TCGA等项目的引入,以及下一代测序技术的广泛使用,无疑将提高我们对癌症相关基因及其临床相关性的认识和理解。并且随着测序成本的较低,使用组学数据指在导临床实践中的地位大大提升。这为我们提供了全面和综合分析的机会,拓宽了我们对癌症的理解。分析储存在TCGA中的大量癌症特异性数据需要特殊的生物信息学方法和技术,以便能够提取有生物学意义的信息。目前已经开发了各种数据分析和可视化平台,以帮助快速分析TCGA数据[4]。
肿瘤标志物的获取需要在多个水平上的分子改变,包括基因组学、表观基因组学、转录组学、蛋白质组学、代谢组学。组学技术现在被用来理解复杂的生物系统,并揭示复杂细胞表型背后的分子特征。随着生物医学技术的进步,以及人类对科研技术的提高,我们已经获得了大规模的多组学数据集。组学技术的发展使我们对癌症等多种疾病有了更深层次的了解。
基因组学是对生物体全基因组(WGS)的研究。自从DNA被人类发现并解释清楚后[5],使当时人们研究的重点从单个基因转移到整个群体的基因组。在每一次细胞分裂中,基因组中的每个碱基都可能突变,这种概率很小,但不是零。这意味着在成千上万个细胞不停分裂的过程中会不断的出现基因突变的现象。这些基因的突变解释了癌症的发生。因此癌症的研究必不可少的要对基因进行研究。经研究发现,癌症表观基因组与正常的表观基因组相比有许多变化,例如癌基因Rras、S100P和黑色素瘤抗原家族A1(MAGEA1)启动子区域的低甲基化分别激活了它们在胃癌、胰腺癌和肝细胞癌中的基因表达[6]。
转录组学是细胞中核糖核酸(RNA)转录本的总体,由编码RNA和非编码RNA组成。现在以RNA-seq为代表的测序技术几乎可以获得所有的转录组,RNA-Seq是目前研究基因表达和鉴定新RNA物种的首选方法,RNA-Seq直接揭示了序列同源性,这对于分析未知基因和新的转录物异构体至关重要。近年来获得的大量RNA-seq数据揭示了癌症组织与正常对应组织之间的差异基因表达模式,为揭示癌症复杂的分子机制提供了强大的动力[7]。
蛋白质组学是特定细胞、组织或生物样本中处于精确发育或细胞阶段的一整套蛋白质。由于大多数生物过程是由蛋白质控制的,因此精准地测量细胞异常状态中的蛋白质组变化对于了解细胞工作方式是很有意义的,比如癌症。正是因为蛋白质直接介导细胞功能,因此了解它们在细胞间的异质性是至关重要的。蛋白质组学是通过蛋白质组学、结构蛋白质组学和蛋白质-蛋白质相互作用分析等方法来研究的。捕获有关组蛋白修饰的信息将有助于研究细胞的表观遗传程序和预测可能的转录状态。当然,由于蛋白质组的高度复杂性和动态范围,大规模的蛋白质鉴定和定量是具有挑战性的,导致癌症的蛋白质组学数据相对较少[8]。
代谢组学是对细胞代谢产物的进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式。将代谢组学融入其他组学数据的研究能让我们对癌症的病理生理学提供更多的见解。不仅可以用来促进我们对癌症进展的分子机制的理解,还可以用来预测癌症患者的存活率。例如:Ren的研究中利用转录组学和代谢组学的分析方法来确定前列腺癌的潜在诊断和预后生物标记物,发现某些代谢物,如S-腺苷高丝氨酸(SAH)、5-甲硫腺苷(MTA)和S-腺苷蛋氨酸(SAM)在前列腺癌中明显增加[9]。
在以往的研究中,往往使用单一组学的数据集来进行临床结果的预测。但是单一组学的研究往往具有局限性。比如使用单一组学的数据进行疾病的研究时,并不能分析出一些复杂疾病的病理机制。例如:一个细胞的转录组与另一个细胞的基因组序列的比较,可能会被细胞之间的体细胞遗传变异以及细胞状态和外部环境的变异所混淆。要知道,即使是在有丝分裂过程中刚剛分裂为二的子细胞都可能在基因组、转录组和蛋白质组上表现出差异。而运用多组学分析可以揭示不同生物因素之间的联系,与单一组学分析相比,具有显著的优势,让我们进一步了解复杂疾病的病因和作用机制[10]。目前单细胞的多组学技术已经足够成熟,这项技术能在同一细胞中获取多组层信息,这些技术包括基因组学加转录组学、表观基因组学加转录组学和转录组学结合靶向蛋白质组学的技术。通过分析多个基因组层,可以获得每个细胞更加完整的信息,这比研究任意单一组学甚至更完整的信息都要有意义,这更好地反映了负责细胞功能之间的相互作用。