论文部分内容阅读
癌症(恶性肿瘤)已经成为危害人类健康的头等问题。由基因芯片技术及二代测序技术所获取的癌症基因表达数据(Gene Expression Data,GED))已成为诸多研究者的挖掘热点。此类数据维度高,但样本数远远小于维数,并且只有少数基因也称特征基因参与癌症病变。矩阵分解技术是从高维数据中提取特征基因的有效方法,然而随着研究的不断深入,传统技术无法满足日益增长的需求。例如:(a)无监督矩阵分解方法存在训练样本歧义性高的缺点;(b)目标函数采用平方项计算时,往往增大了对噪声和异常值的敏感度;(c)主成分分析(Principal Component Analysis,PCA)中主成分(Principal Components,PCs)的稠密性,使所挑选特征基因的生物学意义模糊不明确;(d)非线性数据内部的图谱结构无法通过传统的线性降维方法构建。因此,通过它们进行特征学习时,很难做出合理的生物学解释。本文通过对前人的研究进行补充完善,提高原有算法的鲁棒性、稀疏性等,为下一步更深入的挖掘癌基因、预防、诊断和治疗癌症做铺垫。(1)提出了同时具有稀疏特性和判别能力的PCA算法(SDSPCA)。由于传统PCA属于无监督学习方法,致使训练样本的歧义性较高。因此考虑在PCA上引入类别标签和稀疏约束,在提高PCA稀疏性的同时对具有类别标记的训练样本进行学习。新方法易于求解且收敛速度快,可以挑选到更多的公共特征基因,以及分类效果更精确。(2)提出了具有鲁棒特性的图正则PCA算法(L1/2gLPCA)。首先,引入流形学习(Manifold Learning,ML)去构建数据内部的几何结构;然后通过在误差函数上引入L1/2范数,降低噪声和异常值的影响,使算法更健壮鲁棒;最后通过新算法L1/2gLPCA对GED进行特征提取,发掘其中的特征基因,实验结果显示新方法挖掘的特征基因的富集程度更高。(3)提出了基于Lp范数约束的图正则PCA算法(PgLPCA)。在目标函数上引入Lp范数约束,由于约束p可在0~1范围内任意取值,保证了算法的灵活性和鲁棒性。图正则约束保证了数据点的几何关系不丢失,使样本点间的聚类更清晰。实验结果显示这些新发现的特征基因与相关癌症具有很大的关联性,并且PgLPCA在聚类方面优于其它同类方法。(4)针对GED的高维特点,提出具有去稠密和去冗余效果的稀疏PCA算法(gLSPCA)。传统PCA作为线性分解技术,由原始数据重新组合构成PCs,其权重(也叫基)常稠密较多,然而每个变量都对应一个特定的基因。如果每个PCs包含更少的非零基,PCA的效果将大大被提升。因此,引入稀疏约束过滤掉一部分冗余信息,保留那些对于研究癌症发展有深远意义的特征基因。(5)提出一种新的双图PCA算法(DGPCA)。首先,在PCA模型的PCs和基上同时引入ML,同时构建矩阵行向和列向的几何结构;然后通过新方法在GED中进行双聚类,构建数据中存在的“棋盘结构”。该模型简单易求解,闭合形式的解保证了算法速度。最后,实验结果显示该方法能有效挖掘数据中的棋盘结构和其中存在的癌基因。