一种线性辨别分析的可扩展的近似算法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:sccd920141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Fisher线性辨别分析(FisherLinearDiscriminantAnalysis,LDA)是一种经典的用于处理分类问题的有监督的降维方法。传统的LDA算法主要面临的问题是“奇异性问题”,即当训练数据的散布矩阵(ScatterMatrix)奇异时,传统算法不再成立。近年来,研究者们提出了许多LDA的改进算法,用于处理“奇异性问题”,其中包括一些两阶段的近似算法,包括PCA+LDA算法和LDAQR算法。这些算法首先通过一些其他降维方法将原始数据集降到一个中间维度,使得降维后的协防差矩阵不再奇异,再在降维后的数据上使用传统的LDA算法进一步降低原数据的维度。同时,传统的LDA算法由于有较高的时间复杂度,可扩展性不高,因而无法应用在大规模数据上。这些两阶段的算法,由于是传统LDA算法的一个近似,相比传统的LDA算法有较高的可扩展性。然而,目前对于这类两阶段LDA算法的有效性缺乏理论上的研究。  本文首先对一类两阶段的LDA算法的近似误差进行了理论分析,提出了两阶段算法近似误差的一个理论界。根据该理论结果,本文提出了一种新的两阶段的LDA算法。实验证明,该算法相较于PCA+LDA算法和LDAQR算法,有更高的精确度。另一方面,由于本算法的主要部分是一个奇异值分解,应用近年提出的一种基于随机投影的奇异值分解算法,本算法也拥有较高的可扩展性,可用于大规模的数据上。  MapReduce是一个流行的分布式计算软件构架,它可以支持大规模数据的分布式处理。本文描述了本算法在MapReduce上的一种高效实现。这进一步验证了本算法的可扩展性。
其他文献
随着我国人口红利的逐渐消失,机器人在社会生产生活中的作用越来越大,机器人产业也越来越受到国家的重视。路径规划是移动机器人导航研究的核心问题之一。它是为位于障碍物集
在无线传感器网络中,数据包时间的重构具有重要的作用。在以往的研究中,数据包时间的重构主要是通过在传感网中运行全网时间同步协议来获得的。然而,在全网节点上运行时间同步协
核磁共振成像(Magnetic Resonance Imaging, MRI)技术已经成为现代临床医学诊断和治疗的重要手段之一,其无辐射、多方位、高分辨率成像等优越特性使医学影像技术得到了高速的
延迟绘制[1]是近年来随着硬件和软件的发展而逐渐流行起来的一种绘制方法。由于延迟绘制带来的巨大优越性,目前,延迟绘制思想已经是游戏引擎设计的主流思想。基于延迟绘制的各
学位
操作系统作为直接对硬件进行操作的软件,其安全性一直是工业界和学术界研究的热点。特别是在安全悠关的领域必须确保操作系统的安全性,比如航空航天、医疗和无人机等领域。目
目标跟踪是计算机视觉领域的一个热门研究方向,近年来学者在该方向研究的不断进展使得目标跟踪技术被广泛的应用到社会生活中,为提高安全监控、交通控制、人机交互以及增强现实
本文对基于双线性配对的公钥加密和签密方案进行了研究,获得了以下研究成果:对庞等提出的单方加密-多方解密的公钥加密方案进行具体分析,指出他们的方案并不能满足他们所宣称的
随着现代科学技术的飞速发展,各个领域都面临着日益复杂的科学和技术问题,而综合利用多学科的知识是一种有效解决复杂问题的途径。基于量子力学基本概念和基本原理的图像处理方
随着互联网的迅速发展,IPv4地址空间短缺的矛盾日益凸显。针对IP地址不足问题,“IPv4私有地址+NAT”的解决方案通常被采用,但这无法从根本上解决IP地址短缺的问题,只能从某种程度