论文部分内容阅读
癌症的发病率和死亡率较高,是当前影响人类健康的主要疾病之一。现代生物技术不断进步,使得从基因分子水平研究癌症发病机制成为可能。驱动基因可使细胞获得选择性生长优势,对癌症的发生和发展起明显促进作用。辨识驱动基因对癌症诊断、药物研发、预后判断及精准医疗具有重要意义。然而,生物实验方法确定驱动基因价格高昂且耗时较长。随着二代测序技术的发展,癌症基因组图谱(the cancer genome atlas,TCGA)等基因组项目为研究人员提供了大量癌症样本的基因测序数据。通过计算方法分析这些数据进而辨识驱动基因可以缩小候选驱动基因范围,为进一步的实验验证及临床研究提供有力参考。由于同种癌症类型的病人也可能具有不同的驱动基因,且基因突变数据具有低样本高维度的特点,导致基于计算方法辨识驱动基因面临巨大挑战。论文应用机器学习方法分析测序数据并辨识癌症驱动基因,主要工作包括以下几方面:1.针对随机采样估计背景分布导致算法不稳定的问题,提出一种基于神经网络的功能影响驱动基因辨识算法。首先,使用BP神经网络模型建立基因遗传特征与功能影响得分之间的非线性关系,预测基因的功能影响得分。然后,基于遗传特征对基因进行层次聚类,在每个聚类簇中利用最大似然估计方法拟合伽玛分布作为背景功能影响得分分布。最后,基于背景分布利用显著性检验辨识驱动基因。该算法应用于TCGA数据库中的31个癌症突变数据集,辨识的驱动基因的平均有害突变比为0.8368,在癌症基因统计(cancer gene census,CGC)和癌症基因网络(network of cancer genes,NCG)数据库中的平均精度分别为55.62%和86.85%,优于其他21种驱动基因辨识算法。2.基因通过相互作用关系被分组到不同的信号通路中,因此基于以上独立驱动基因的研究基础,进一步辨识对癌症发展起推动作用的一组基因集合,提出鲁棒自适应驱动基因集辨识算法,解决了强互斥性导致基因集出现不平衡突变模式的问题。首先,分析癌症信号通路突变模式得出基因的覆盖度与重复覆盖贡献度高度正相关,即高突变频率基因总是与其他基因共同发生突变,因此辨识驱动基因集时应允许适当的重复覆盖。然后,引入与突变频率负相关的自适应权重调节对不同突变频率基因互斥性的要求,并将留一法子采样策略与遗传算法结合建立具有鲁棒性的数学规划模型。该算法应用于三个癌症突变数据集,辨识的驱动基因集在满足互斥性的前提下获得较高的覆盖度,且在Erb B、MAPK及PI3K-Akt等重要的癌症信号通路中富集。肺腺癌突变数据扰动实验中10个元素0置换为1和1置换为0情况下,该算法分别以75%和81%的频率辨识同一驱动基因集,抵抗数据扰动的能力优于其他四种同类算法。3.对样本数量少的突变数据使用突变病人基数调节互斥性权重可能产生偏差,因此在上述鲁棒自适应模型的基础上,提出基于多组学分析的驱动基因集辨识算法。首先,分析突变频率影响因素并将表达水平引入权重函数调节基因互斥性,结合基因组学和转录组学信息辨识驱动基因集。该算法应用于肺腺癌突变数据集,辨识的驱动基因集具有高覆盖性和互斥性,且在Erb B、MAPK及非小细胞肺癌信号通路中富集。另外,为了排除原始突变数据中无关基因对驱动基因集辨识算法的干扰,提出基于信息熵的突变矩阵提取算法,通过最小化基因突变信息熵识别一组最有价值的突变类别,并确定候选基因集和对应的突变矩阵。突变矩阵提取算法应用于卵巢癌突变数据集确定了五种最优突变类别,使候选基因由9901个缩减到471个且同时保留高突变频率和低突变频率基因。4.以上驱动基因辨识算法可以为癌症的靶向药物治疗提供参考,然而癌症病人对抗癌药物的敏感性不同,且抗癌药物响应相关的基因特征选择面临维数灾难问题,鉴于此,进一步提出基于自动编码器网络的抗癌药物响应驱动基因辨识算法。首先,训练自动编码器网络,通过网络权重评估基因特征的贡献度实现初步特征降维。然后,利用Boruta算法选择加噪后对细胞系药物敏感性影响显著的特征作为抗癌药物响应驱动基因。另外,对类不平衡数据集应用Easy Ensemble采样进行特征集成处理,充分利用多数类样本信息。最后,基于所选择的驱动基因利用随机森林分类器预测细胞系的药物敏感性。该算法在肺癌的靶向药物PLX4720和BIBW2992上辨识到与肺癌和肺癌靶向信号通路相关的驱动基因。在癌症药物敏感性基因组学(genomics of drug sensitivity in cancer,GDSC)和癌细胞系百科全书(cancer cell line encyclopedia,CCLE)数据库中预测药物敏感性的平均AUC分别为0.7116和0.8210,较其他四种同类算法更优。