论文部分内容阅读
癌症(恶性肿瘤)是威胁人类生命健康的最大杀手。随着新一代测序技术、纳米技术和生物芯片技术的快速发展,人类获取了大量的基因组信息并对此进行充分的挖掘,为癌症的预防和治疗提供理论依据。生物测序数据存在数以万计的基因,然而细胞病变仅与少量基因的差异表达(差异表达基因)有关,此类差异基因在海量数据中只占小部分,这为提取与癌症病变有关基因的工作带来挑战。矩阵的鲁棒主成分分析方法旨在将原始矩阵表示成矩阵的线性组合,并通过稀疏和低秩约束将噪声考虑到算法中来,再对部分分解矩阵进行研究,从而解决由高维度引起的数据问题。然而,这一模型没有充分挖掘癌症多组学数据的空间结构以及多视角信息,影响选择差异表达基因的精确度。而基于三阶张量分解方法的研究能保留数据的立体结构不被破坏,从而能充分挖掘数据的隐含信息,这在当前引起了广泛关注。针对目前矩阵分解方法无法保留数据空间几何结构的问题,本人在鲁棒主成分分析方法的基础上,利用癌症基因图谱中的生物测序数据,提出对算法稀疏性、鲁棒性的改进。主要分为以下三个部分:(1)针对空间几何结构感知力低的问题,提出了张量鲁棒主成分分析方法。该方法在矩阵鲁棒主成分分析模型的基础上引入张量结构,将L1惩罚项施加在稀疏项上,利用原始张量分解出的稀疏张量来保留数据表示的空间几何结构,从而更好地处理包含异常值和噪声值的张量数据。通过癌症基因图谱中单癌症多类型的整合数据验证,该方法可以挖掘到具有更高富集程度的特征基因。(2)针对张量噪声敏感度低的问题,提出了双稀疏约束的张量主成分分析模型。该方法通过对稀疏张量的双重稀疏约束,提高噪声分离的精度,其中施加的L2,1正则项可以增强模型的鲁棒性。将基因对齐和归一化预处理后的多组学癌症数据作为原始张量的输入数据,在经过模型处理后获得的稀疏张量上进行差异表达基因的选取。经过实验对比,提出的方法求解速度快,收敛性强,而且可以挖掘出更多的差异表达基因。(3)针对张量核范数不能很好近似秩函数的问题,提出了基于张量截断核范数的主成分分析方法。该方法引入截断核范数来更好地逼近秩函数,解决了张量核范数近似秩函数过程种存在较大误差的问题,增强模型鲁棒性。此外,模型采用L2,1范数来学习稀疏张量,其产生的行稀疏约束更能检测到实际张量的异常值,从而生成一个稀疏组来使稀疏效果更好。该模型可以通过稀疏张量识别差异表达的基因,并通过低秩张量对样本进行分类。仿真数据和癌症基因组数据上的实验结果表明,所提方法优于其他方法。