论文部分内容阅读
基因突变是癌症的根本致病原因,如何从海量的突变信息中筛选出致癌的驱动基因是非常重要的研究课题。为了探索驱动基因,流行的方法是在癌症样本群中提取的测序数据中筛选显著高频突变的基因。但与癌症相关的基因突变具有明显的异质性,即导致同种癌症患者体内的驱动基因具有差异性。因此,流行的方法很难筛选出低频突变的驱动基因。研究发现,虽然驱动基因具有异质性,但同一通路中驱动基因的集合对于样本具有高覆盖性。此外,驱动基因集合中的基因之间还具有排他性,即对于个体患者,集合中最多只有一个基因发生了突变。本文基于覆盖性和排他性,提出了基于高通量测序数据的驱动基因集的筛选方法。主要包括三方面工作:(1)对测序数据进行处理,得到了可用于本文所提方法的突变矩阵。本研究克服了测序数据处理工具之间编程语言不同、互不兼容、操作复杂等问题,最终形成一个一体化、高效便捷的突变检测系统并对系统检测结果进行了可视化分析。为了方便整数规划模型的构建,本文将上述突变检测系统得到的结果构造成二值突变矩阵。(2)基于覆盖性和排他性模式,提出数学规划模型,并构建优化算法。本文将覆盖性和排他性,作为两个优化目标,构造了一个多目标整数规划模型。并在此基础上,充分考虑了基因突变异质性对突变频率的影响,将每个基因固有的协变量作为突变频率的权重加入到模型当中,提出了一种改进的具有自适应性的模型。为了对模型目标函数进行求解,本文提出使用蚁群优化算法,有效的克服了传统算法容易陷入局部最优的问题。(3)本文所提方法在真实生物数据中的应用。将搜索方法应用到肺腺癌和多形性成胶质细胞瘤两种类型的癌症数据中,不仅从实验结果基因集的准确度、覆盖性和排他性上进行了统计意义上的说明,也通过通路富集分析对基因集在信号通路中的相互作用关系上进行了生物意义上的解释。实验结果表明,本文在癌症数据中找到了更多满足高覆盖性和高排他性的基因集,相关医学文献表明,这些驱动基因集确实对癌症的发展发挥着重要的作用,证明了本文方法的有效性。本研究模型实现了对驱动基因集覆盖性和排他性权重的自适应处理,使得筛选得到的驱动基因集更具有生物学意义,证明了本文所提方法具有良好的应用性。