论文部分内容阅读
数据挖掘是生物学研究领域的重要技术,被广泛应用于癌症治疗中。癌症是最常见的一种由于基因的突变,导致机体失去对细胞生长的正常调控,进而异常增生、分化的恶性肿瘤。随着二代测序技术的发展,癌症数据库也得到了长足发展。现在癌症数据库(The Cancer Genome Atlas,TCGA)的数据量非常大,如何从海量数据中挖掘有效信息就成为了当下的热点问题。在癌症的研究中,一个关键的问题就是如何区分基因突变中的“乘客突变”和“驱动突变”。传统的方法就是从概率模型的角度找出基因数据集中反复出现的基因。但由于基因突变的异质性,这种方法比较理论化。早期的无先验的方法(De novo Driver Exclusivity,Dendrix)和遗传算法虽然能在一定程度上识别某些驱动通路,但随机性比较大,容易陷入局部解。针对以上问题,本文则主要围绕基因矩阵模型来分析癌症中的驱动通路,具体研究工作包括:(1)提出了一种基于混沌-多种群遗传算法(Chaos Multi-population Genetic Algorithm,CMGA)的识别癌症驱动通路的方法。这种方法是一种无需先验知识的方法。本课题利用基因矩阵模型,将混沌方法和遗传算法各自优点结合起来,采取计算权重值的方式,来求得最终结果,达到优化解决该问题的效果。具体步骤是,我们首先在初始化种群的过程中,利用混沌算法的遍历性特点,遍历整个样本空间,优化抽样过程。然后在多种群遗传算法中,利用种群间的移民算子来加速算法的收敛过程。随后将该方法在1个模拟数据和4个临床数据上重复进行了大量实验,并且和以往的Dendrix、遗传算法等做了相关比较。在实验中,将各方法的平均权重值和有效运行次数进行了对比,CMGA方法的两个指标数值都是最大的。实验证明CMGA方法具有更好的稳定性能。(2)在Dendrix、CMGA算法中,所考虑的都是单通路识别的情况。但在现实生物个体中,基因间存在千丝万缕的联系,更应该考虑通路间的相互关系。驱动基因在基因矩阵中拥有的两个主要特征是:每条通路是同时具备高覆盖性和高互斥性的;通路间的基因有着协同突变的现象。因此,在CMGA的基础上,我们采用协同混沌-遗传算法(Co-occurring Chaos Mutli-population Genetic Algorithm,CCMGA),求解协同的多个驱动通路,使结果更加符合实际情况。同样,该方法也在1个模拟数据和4个临床数据中进行了大量实验。实验结果表明,该方法发现了癌症生理过程中的一些协作信号通路。