论文部分内容阅读
随着生物技术的进步和相关研究的深入,人们对基因功能的认知也进入了全新的层次,随之而来的是,癌症的治疗观念也正在发生着根本性的转变,即由经验科学向循证医学转变、由细胞攻击模式向靶向性治疗模式转变。大量的研究已经证明,在癌症的发生和发展过程中,只有少量的关键基因起到了决定性的作用,称之为“驱动基因(drivers)”,而大量与癌症相关的基因只是“乘客基因(passengers)”,它们的改变并不诱发癌症。现在的生物技术可以精确地对患者的癌细胞进行基因组测序,因此,如何准确地在发生改变的数百个乃至上千个基因中,识别出癌症的驱动基因,就成为亟待解决的问题,这对于癌症的有效治疗具有重要意义。目前,研究泛癌症驱动基因的方法大致可以分为两大类:一类是基于统计规律的研究方法。该方法通过整合目前多个权威数据库的癌症相关数据,借助统计规律或者矩阵变换,对数据进行分析,将特定的研究指标发生显著差异的基因作为检测到的癌症驱动基因。该类方法只着重于数学运算的应用,很大程度上忽视了数据的生物学意义。另一类是基于网络分析的研究方法,此类方法通过将癌症样本数据整合到生物网络上,把复杂网络分析的相关理论迁移应用到生物网络分析上,评估各个节点在网络结构中的重要性程度,将重要性最高的若干基因作为检测到的癌症驱动基因。该类方法识别的准确率很大程度上受限于生物网络信息的准确性和完整性。本文在前人研究成果的基础上,针对驱动基因识别的准确率受网络信息准确性和完整性影响过大的缺点,引入了已知的癌症驱动基因作为先验知识,对识别结果进行校正,从而提出了一种新的泛癌症驱动基因的检测算法。本文实验数据采用TCGA数据库中多种癌症的体细胞突变的样本数据,在进行质量控制和预处理后,映射到人类基因网络HumanNet中,并通过重采样的方法对网络进行了重构,提取泛癌症的基因网络。然后,结合复杂网络分析的相关理论,评估每个突变基因对网络的重要程度得分。为了减少结果对网络结构的依赖性,本算法引入了已知的癌症驱动基因作为先验知识,校正每个基因的得分。最后,选取得分靠前的突变基因作为候选的癌症驱动基因。本实验最终确定了20个候选的癌症驱动基因,其中有8个基因已被相关文献证明是一种或多种癌症的驱动基因。随后我们分析了未被验证的候选基因以及它们的邻近基因,发现绝大部分候选基因与已知的癌症驱动基因存在紧密的联系,这也从侧面反映出本文所检测的候选驱动基因具有较高的可信性。