论文部分内容阅读
在生物信息学的研究中,一个很重要的问题就是基于微阵列技术将肿瘤样本分到不同的类别中。和传统的聚类问题相比,它的难点在于基因空间的维数很高,而要聚类的样本数很小。原有的数据矩阵分解方法,如主成分分析(PCA)、矢量量化(VQ)、因子分析(FA)等在这类数据集上的聚类效果不佳。非负矩阵分解(NMF)已经解决了上述数据集的聚类问题,且它的非负性使聚类结果具有良好的可解释性等优势。本文先对NMF的相关理论进行深入的研究,论述了NMF的基本算法和各种变体算法。基于这些理论以及基因表达数据中所期望的聚类特性,给出了增加局部约束的非负矩阵分解(LR-NMF)算法。和原始的NMF相比,LR-NMF的目标函数不仅维持了原有的非负限制,更增加了对于原始数据的局部特征约束。最后通过对目标函数最小化的求解,给出LR-NMF的迭代规则,并证明了该算法的收敛性。在实验部分,我们先对两组经典的基因表达数据(白血病数据集和成神经管细胞瘤数据集)进行详细介绍。然后将LR-NMF算法应用到这两组数据集上,并结合模式选择机制,利用将肿瘤样本聚类来验证算法的优势。同时,通过讨论参数选择,体现了LR-NMF在疾病数据集分解上的鲁棒性。最后,我们从实验及理论上可以得知:虽然LR-NMF和NMF同样都是局部最小化的收敛算法,但LR-NMF比NMF更适合进行局部特征提取,并且聚类的效果更好。