【摘 要】
:
随着大数据进入加速发展时期,数据规模越来越大,数据的维数越来越高,数据处理越来越困难,产生了“维数灾难”问题,降低数据维数是降低高维大数据处理难度的重要手段。流形学习是一种数据降维方法,能够保持高维数据的原始拓扑结构,并提取数据内在特征。然而单机下的串行流形学习方法难以适应大数据的要求,而分布式计算平台拥有强大的存储能力和高效的计算性能,非常适合大数据环境下的并行计算。为此,本文基于Spark平台
论文部分内容阅读
随着大数据进入加速发展时期,数据规模越来越大,数据的维数越来越高,数据处理越来越困难,产生了“维数灾难”问题,降低数据维数是降低高维大数据处理难度的重要手段。流形学习是一种数据降维方法,能够保持高维数据的原始拓扑结构,并提取数据内在特征。然而单机下的串行流形学习方法难以适应大数据的要求,而分布式计算平台拥有强大的存储能力和高效的计算性能,非常适合大数据环境下的并行计算。为此,本文基于Spark平台,对并行流形学习方法进行了研究,主要内容如下:(1)针对大规模矩阵计算和传输困难的问题,设计了基于RDD分区的行块式矩阵乘法策略。该方法把矩阵按行分块,读取到RDD的每个分区中,行块式矩阵可不受map算子对RDD的逐条计算限制。同时,利用Spark中成熟的线性代数库参与矩阵级别的运算,提高了流形学习方法的并行性。(2)针对最大特征值的求解效率问题,在块Davidson方法的基础上结合行块式矩阵乘法策略和重新开始技术,设计了基于Spark的并行块Davidson方法。该方法是一种近似特征向量计算方法,在每次迭代过程中执行Rayleigh-Ritz精化步骤,更新特征向量空间,当残量2-范数满足收敛条件时,可将Rayleigh矩阵的最大特征值视为目标特征值,Ritz向量视为特征向量。实验结果表明,该方法能在较少的时间内计算出特征值和特征向量。(3)针对最小非零特征值不易求解的问题,在块Chebyshev-Davidson方法的基础上结合行块式矩阵乘法策略和双迭代重新开始技术,设计了基于Spark的并行块Chebyshev-Davidson方法。使用Lanczos方法估计特征值范围,利用Chebyshev多项式函数把估计特征值范围映射到[-1,1]上,扩大左端点最小特征值附近的特征空间。实验结果表明,该方法可以较快地计算出特征值和特征向量。(4)基于上述两种特征值并行求解方法,在Spark平台上设计了并行ISOMAP算法和并行LLE算法。实验结果表明,并行块Davidson方法和并行块ChebyshevDavidson方法有效提高了并行ISOMAP算法和并行LLE算法的执行效率,同时行块式矩阵分块策略进一步提高了并行流形学习方法的性能,两种并行流形学习方法都可以适应大数据环境下的降维处理。
其他文献
《世界书局国语读本》是民国时期发行量大、影响范围广,且流传至今的一套经典性小学国语教科书。本论文以该套教科书为研究对象,主要采用历史文献法、内容分析法和归纳法等研究方法,从《世界书局国语读本》初印本编写背景出发,以重印本为参照,对内容特点、编写理念、编写体例这三方面的内容进行了详细的分析。并分析了时代局限性,选择从教科书的内容特点与体例特征两方面找出对当今语文教材编写的参照价值,以期拓宽《世界书局
随着信息技术的发展,交通运输数据已经进入了大数据时代,交通流大数据中蕴含着很多重要的信息,这些信息可以充分体现一些现实情况,特别是其变化规律反应了交通运输的状况,例
如今,人脸识别技术虽然已经取得了长足的进步,但是在实际应用中面临很多的困难与挑战,仍然是当前研究的热点,许多新的思想和算法不断涌现。稀疏表示由于对噪声和遮挡的鲁棒性
光波场的特性可以从振幅、波长和相位这三个方面来描述。统计表明,约四分之三的信息被编码在相位项中,因此,相位相对于其他信息更为重要。然而,人眼或现有的光探测器,仅能记
在金融市场发展的历史长河中,金融危机往往伴随着流动性消失,全球各个证券市场几乎都曾出现过非常严重的流动性问题,因此流动性问题一直受到市场监管者和学者的广泛关注。毫
经过一个世纪的发展,沙盘游戏已经成为一种成熟的心理技术。作为一种通过沙子、水、沙具等元素的组合进行心理治疗的方法,沙盘游戏近年来在国内有了很大的发展。目前沙盘游戏的应用范围已经从个体扩展到团体;从儿童扩展到成人;从具有心理障碍的个体扩展到一般人群。本论文包含两个研究,研究一是对低水平同伴依恋初中生的初始沙盘特征进行分析,通过对高水平同伴依恋与低水平同伴依恋初中生的初始沙盘的四个指标(沙具的种类与数
死亡相关蛋白激酶1(DAPK)是一种丝氨酸/苏氨酸激酶,可由钙调蛋白调节。研究发现DAPK的表达紊乱与数种恶性肿瘤(例如乳腺癌、胰腺癌、宫颈癌、肺癌、肝癌等)的发生发展以及恶
中国共产党的建立和发展,离不开人民的大力支持。中国共产党人民思想在革命战争和国家建设中逐渐形成并不断发展。受现实环境、政治形势等多种因素的影响,中国共产党对于人民
近年来,随着互联网和社会经济的不断发展,人们的出行方式发生了天翻地覆的变化,城市常规公交作为公共交通系统的重要部分也在满足乘客出行需求的基础上不断发展;同时共享单车作为短距离出行方式,解决了乘客使用常规公交上下车的接驳问题,乘客可以通过共享单车与常规公交的协同配合,减少出行时间,提高出行效率;因此如何利用共享单车进行接驳优化常规公交的服务模式,对于提高城市常规公交的服务水平和运行效率非常重要论文首
测度集中性以及遍历系统松弛时间的研究中,Poincare不等式,传输不等式和对数Sobolev不等式是研究中的基本工具。本文讨论Rn中的n维球面上的Moebius测度μxn(n≥3)。由于Moebi