论文部分内容阅读
当今是大数据技术高速发展的时代,在互联网、生物信息、金融等很多领域,数据规模都在飞速增长。随着这些数据量的迅猛增长,给各行各业的发展带来了宝贵的机遇,但同时也给大数据降维技术带来了一系列的挑战,因为有些大数据中包含的价值信息的密度是非常低的,含有大量的冗余信息。所以,近年来设计高效的降维模型来从这些高维数据中提取核心的信息,实现大数据的高效降维,成了许多学者研究的主要内容。本论文以高维数据为基础展开研究,运用Spark集群强大的数据分析能力,设计了增量式、分布式的大数据降维系统,并定名为慧眼系统,用户在使用时,运行模式共有三种供选择,common模式对应IDPCA模块,common_v1模式对应DIDPCA模块,common_v2模式对应SVD增量降维模块。本文研究核心思想是在降维过程中,只对最新增量变化的数据这一部分数据提取出来进行降维处理,然后使用增量的降维结果对总的降维结果进行更新,来得到最新的降维结果。采用增量处理技术的好处是可以让增量降维结果和历史降维结果之间得到关联,能够节省大量的计算资源,显著加强数据降维工作的效率,在解决数据的增量变化的场景中是一种非常有效的方法。本论文具体工作如下:1.提出了IDPCA降维方法,并基于IDPCA算法实现了慧眼系统的IDPCA增量降维模块。该模块由用户进行参数配置,提交运行,然后利用其结果进行决策分析。2.提出了DIDPCA方法,并利用Spark集群,实现了慧眼系统基于DIDPCA的分布式增量降维模块。模块首先由用户进行配置,然后将这些参数缓存到Redis中,由Spark引擎得到配置信息,进行任务调度,将任务提交到Spark集群进行计算,该系统将相关系数矩阵以及特征值、特征向量、投影阶段等阶段的计算在集群上并行实现,与PCA算法相比,该方法显著提高了降维的效率。3.提出了基于奇异值分解的增量降维方法,并通过把算法部署到集群中,实现了慧眼系统的第三个模块。该模块的核心思想是将原始数据集分解后,得到一个对角矩阵,对角矩阵的元素值就是奇异值,所有奇异值都是按从大到小进行排列的。而且一般来说,前10%的奇异值计算得出的平方和就会占全部奇异值的平方和的95%以上,因此我们就可以用前k个奇异值近似描述原始矩阵。基于本方法的系统模块可以有效的实现数据的降维。