非负矩阵分解模型选择及其在生物数据挖掘中的应用

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:xxn1954
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习中很多重要方法都离不开模型选择。模型选择在数据聚类、复杂网络社团发现及数据降维等方面应用广泛。如何准确地进行模型选择,从而选择出合理的目标维度,进而引导出具有可解释性的分析方案,挖掘出隐含在数据中的潜在信息是机器学习中模型选择所面临的一个挑战。矩阵低秩分解是目前应用广泛的数据降维和数据表示方法,其中非负矩阵分解是最具有代表性的矩阵低秩分解方法。非负矩阵分解(Nonnegative Matrix Factorization,NMF)作为一种矩阵的低秩逼近方法,它分解的矩阵和最终得到的结果矩阵的数值都是非负的。非负矩阵分解能将高维数据降至低维,一个合理的维度能引导更为理想的分解,使得分解之后的低维矩阵能最大限度的保留原始数据的特性。围绕非负矩阵分解的维度选择即模型选择问题,本文做了以下研究工作:第一、提出基于同趋性的模型选择方法(Tendency Drive Nonnegative Matrix Factorization,TDNMF)。不同于其他在分解过程中进行模型选择的方法,该方法从数据分解前后的结构保持情况出发,基于数据点之间的相关性关系,提出样本同趋性概念,并采用重采样的方法解决了在样本容量不一致的情况下比较样本相关性的问题。得益于这两种数据处理技巧,基于同趋性的模型选择方法(TDNMF)具有较小的时间复杂度。第二、提出基于信息均衡的模型选择方法(Entropy Balanced Nonnegative Matrix Factorization,EBNMF),该方法结合了非负矩阵的可伸缩分解特性以及高效稳定的维数选择标准,在多个模拟数据上体现了良好的性能。在此基础上,本文进一步地在真实生物数据集包括果蝇基因表达数据和人类微生物组数据集上对提出的方法进行了验证,表明了 EBNMF方法的稳定性和可解释性。EBNMF能在信息分解过程中进行很好的模型选择,并能有效提取具有噪声的生物数据的有效特征。非负矩阵分解模型符合整体是由局部组成这一客观规律而被广泛应用于多个领域,但其模型选择仍然是一个难题。本文提出了两种非负矩阵分解的模型选择方法,分别在计算复杂度和准确性上具有一定的优势,可适用于不同级别的数据集。
其他文献
随着全球气候环境的恶化,近年来,世界范围内有关机动车节能减排问题及其解决方法的研讨颇为热烈,其中推广新能源汽车是当前最为认可的有效举措之一。正因如此,全世界正兴起一
1)冬施浇筑混凝土前,认真检查模板,清理模板内的冰雪。2)墙柱模板在混凝土达到抗冻临界强度(混凝土设计等级的30%并不低于5MPa)并冷却到5℃后方可拆除。拆模时混凝土温度与环境温
<正>大学生已成为志愿者的主要来源和重要力量,是志愿服务工作的主力军和生力军。创新大学生志愿服务保障机制建设,需要充分调动各项有利资源和积极要素。东北大学为建立高校
昆体良是罗马帝国初期著名的教育家、演说家,他集古希腊、罗马教育经验之大成,为文艺复兴以来西方教学理论的发展莫定了基础。昆体良的阶段教学、启发诱导、因材施教和道德教
热传导方程作为一种典型的抛物型偏微分方程广泛地应用于众多领域,目前经常以期权模型应用于金融数学中,引起了中外学者们的研究兴趣.由于实际问题的复杂多变性,此类抛物型偏微分方程的解析解通常很难得到,因此求解其数值解不仅能够进一步发展热传导方程数值解理论,而且有利于解决更为实际的问题.本文对两类时滞抛物型偏微分方程的数值解法进行了探讨,即带有延迟的抛物型偏微分方程和带有扰动时滞抛物型偏微分方程.通过定义
目的了解重庆市不同地区学龄前儿童的蛲虫感染现状及相关影响因素,为今后蛲虫防治提供科学依据。方法选择重庆市城区和农村各1个区县作为调查点,每个调查点抽取5个乡镇,每个
结合无锡地铁三阳广场站工程实践,分析地铁地下换乘车站共用一个站厅公共区、且面积超过单线标准车站站厅公共区面积2.5倍时,其消防安全存在的问题,以及通过性能化设计分析所采取
<正>一、辽宁省建设工程造价信息是依据《辽宁省建设工程造价管理办法》相关规定,由辽宁省建设工程造价管理总站收集、整理、发布的。主要为国有资金投资或以国有资金投资为
随着科技的发展,计算机技术给人们的生活带来了极大的便利,同样计算机技术已全面应用于广播电视中,在广播电视工程中的应用日益增多,为广播电视工程的快速发展奠定了坚实的基
学生评教是当前高校教学质量保障体系建设中应用最广泛的制度之一。通过收集国内某所"一流大学"建设高校2013—2017年所有课程的评教结果,构建长面板数据样本库,运用固定效应