【摘 要】
:
随着信息时代的快速发展,产生了大量高维数据.对数据进行降维的一些传统方法,如主成分分析(PCA)和奇异值分解(SVD),都会产生负值,而在一些实际场景中,负值是没有意义的.非负矩阵分解(NMF)是1999年由Lee和Seung[1]首次提出的,有着广泛应用,如图像处理[1]、文本聚类[2]和社区发现[3]等.相较于其他的矩阵分解方法,由于元素的非负性,所以可解释性很强.比如:在处理图像时,负的像素
论文部分内容阅读
随着信息时代的快速发展,产生了大量高维数据.对数据进行降维的一些传统方法,如主成分分析(PCA)和奇异值分解(SVD),都会产生负值,而在一些实际场景中,负值是没有意义的.非负矩阵分解(NMF)是1999年由Lee和Seung[1]首次提出的,有着广泛应用,如图像处理[1]、文本聚类[2]和社区发现[3]等.相较于其他的矩阵分解方法,由于元素的非负性,所以可解释性很强.比如:在处理图像时,负的像素点是没有意义的;在文本聚类时,正值代表文档以一定概率属于某个主题,负值则没有任何实际意义.对于非负矩阵分解的理论研究,主要是两方面:一是非负矩阵分解的算法,二是非负矩阵分解的初始化问题.解决非负矩阵分解的算法有很多,大致可分为三大类:乘法更新规则(MU)、投影梯度法和交替的非负最小二乘法(ANLS).非负矩阵分解的初始化算法也有很多,主要分为两大类:一是基于奇异值分解的初始化算法,二是基于聚类的初始化算法.一般来说,用的比较多的初始化算法是基于奇异值分解的,具有代表性的是由Qiao提出的SVD-NMF[6]和Boutsidis等人提出的NNDSVD[5]算法.在非负矩阵分解的应用方面,研究的比较多的是其在聚类和图像处理方面的应用.进一步的,我们分别介绍了对称和非对称的非负矩阵分解与聚类的联系,以及非负矩阵分解在人脸重构和人脸识别方面的具体原理.Frieze等人[22]提出了一种基于蒙特卡洛方法的矩阵低秩逼近算法,这种方法可以大大节省计算的时间,Chia[23]利用这种思想解决了最小二乘问题.考虑到现有的基于奇异值分解的初始化方法都是基于原矩阵进行的,但是当矩阵的维数很大时,对原矩阵直接进行奇异值分解是很耗时的.受到Frieze等人思想的启发,本文提出了一种基于蒙特卡洛方法的非负矩阵分解初始化算法(FKV-NMF):通过抽样构造一个更小的矩阵,我们可以对这个小矩阵来做奇异值分解,从而实现对W和H的初始化.数值实验显示,本文提出的初始化算法既在一定程度上保持了计算精度,也节省了计算时间.
其他文献
背景与目的14-3-3蛋白自被发现以来,其越来越多的功能被逐渐报道出来。14-3-3蛋白在哺乳动物中共有7个亚型,这些亚型分别被不同的基因编码而成,并且都是以同源或异源二聚体的形式存在于细胞中。14-3-3蛋白是一类高度保守的蛋白质家族,其成员可与数百种蛋白质相互作用,在神经发育、信号转导、免疫反应、蛋白转运、细胞周期和凋亡等细胞生命活动中都发挥着非常重要的作用。14-3-3蛋白家族还参与许多神经
根据文化层次结构理论,学院治理文化是学院利益相关者在参与学院治理过程中逐步形成的有关学院治理的理念、制度和行为的总和,其核心构成可分解为三个要素:学院治理理念、学院治理制度、学院治理行为,三要素相辅相成、和谐共生。构建具有人本性、整合性、共享性、多样性、发展性、开放性的治理文化,是学院这一基层学术组织可持续发展的原生动力。学院是大学最重要的基层学术组织,学院治理是实现大学治理体系和能力现代化的关键
陆面与上覆大气是一个紧密联系的系统,二者之间在进行水分与能量交换的同时,影响着大气状态和陆面水文过程。开展陆-气反馈研究,对提高大气和水文模拟能力具有重要意义。传统水文模拟方法将陆面水文系统视作独立、开放性系统,侧重于描述水文系统对外界干扰的被动响应,忽视了陆-气反馈作用对陆面水文过程的进一步影响。基于物理过程的气候模式能够实现复杂陆-气反馈作用的模拟,但存在工作量庞大、模拟结果具有不确定性等难题
黑色素(melanin)是一类普遍存在于自然界的天然色素,它由酚类或吲哚类物质聚合而成。尽管黑色素不是生物体所必需,但其具有光吸收、防辐射、清除自由基等多种功能,能够为生物体提供生存优势。许多研究发现黑色素与阿兹海默症、白化病等疾病密切相关,因此,黑色素合成机制与生物学功能的研究一直以来备受人们关注。而过氧化氢酶(catalase,CAT)作为重要的抗氧化酶,普遍存在于需氧生物中,它能高效清除一类
世界由不同的领域组成,通过某种方式收集到的数据集可以被看成是一个领域,不同方式收集到的数据集可以被看成是不同的领域,传统机器学习的目标是通过最小化训练数据的正则化经验风险,找到一个对测试数据的期望风险最小的模型,但是这类模型常常基于同分布假设,即训练数据集和测试数据集具有相似的联合概率分布,这种假设在现实生活中往往并不成立,因为不同领域的数据集常常具有不同的分布,迁移学习的目的是通过从语义相关但分
鸟群算法是近两年内新提出的一种新型智能仿生算法,它在求解各类数值优化问题上有着较好的表现.本文提出了一种改进的鸟群算法,主要处理违反约束边界的新候选解,避免新解在约束边界堆积,从而使得鸟群算法在不断迭代的过程中能够很好地保持种群多样性.同时,改进的鸟群算法在保留原算法的全局搜索能力的前提下,对觅食行为进行加速,平衡算法的探索能力和利用能力.本文利用60个具有不同特点的测试函数来测试改进的鸟群算法.
目标跟踪是计算机视觉中重要的研究方向之一,它的研究涉及了计算机科学,数学,视觉认知等学科的前沿知识,并且在现实生活中存在着大量应用,如人机交互,视频监控等。经过几十年的研究发展,目前也已存在着大量优秀的目标跟踪算法。然而,面对环境的复杂性和目标运动的多样性,鲁棒的跟踪算法研究仍然是一个非常有挑战的问题。根据发展情况来看,目标跟踪算法可分为生成式方法和判别式方法。生成式方法包括典型的跟踪方法,如粒子
数字图像在获取和传输过程中不可避免的会受到各种噪声的污染,有时会同时受到模糊和脉冲噪声的污染。处理这种模糊-脉冲混合污染的有许多方法,比较经典的有滤波法和全变差正则化方法,以及一些混合模型,这些模型大多基于求解一个凸的目标优化问题,往往在低水平脉冲噪声时能够取得可观的恢复效果,但是对高水平污染图像的恢复效果不甚理想。近年来非凸正则化模型在保留图像边缘和在处理高水平污染方面所表现出来的潜力开始受到更