论文部分内容阅读
机器学习中很多重要方法都离不开模型选择。模型选择在数据聚类、复杂网络社团发现及数据降维等方面应用广泛。如何准确地进行模型选择,从而选择出合理的目标维度,进而引导出具有可解释性的分析方案,挖掘出隐含在数据中的潜在信息是机器学习中模型选择所面临的一个挑战。矩阵低秩分解是目前应用广泛的数据降维和数据表示方法,其中非负矩阵分解是最具有代表性的矩阵低秩分解方法。非负矩阵分解(Nonnegative Matrix Factorization,NMF)作为一种矩阵的低秩逼近方法,它分解的矩阵和最终得到的结果矩阵的数值都是非负的。非负矩阵分解能将高维数据降至低维,一个合理的维度能引导更为理想的分解,使得分解之后的低维矩阵能最大限度的保留原始数据的特性。围绕非负矩阵分解的维度选择即模型选择问题,本文做了以下研究工作:第一、提出基于同趋性的模型选择方法(Tendency Drive Nonnegative Matrix Factorization,TDNMF)。不同于其他在分解过程中进行模型选择的方法,该方法从数据分解前后的结构保持情况出发,基于数据点之间的相关性关系,提出样本同趋性概念,并采用重采样的方法解决了在样本容量不一致的情况下比较样本相关性的问题。得益于这两种数据处理技巧,基于同趋性的模型选择方法(TDNMF)具有较小的时间复杂度。第二、提出基于信息均衡的模型选择方法(Entropy Balanced Nonnegative Matrix Factorization,EBNMF),该方法结合了非负矩阵的可伸缩分解特性以及高效稳定的维数选择标准,在多个模拟数据上体现了良好的性能。在此基础上,本文进一步地在真实生物数据集包括果蝇基因表达数据和人类微生物组数据集上对提出的方法进行了验证,表明了 EBNMF方法的稳定性和可解释性。EBNMF能在信息分解过程中进行很好的模型选择,并能有效提取具有噪声的生物数据的有效特征。非负矩阵分解模型符合整体是由局部组成这一客观规律而被广泛应用于多个领域,但其模型选择仍然是一个难题。本文提出了两种非负矩阵分解的模型选择方法,分别在计算复杂度和准确性上具有一定的优势,可适用于不同级别的数据集。