基于Spark的主成分分析和因子分析并行化的研究与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:yangpengjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的不断发展,各行各业产生着以往无法想象的海量数据。人们急需从海量数据中得到有用信息。主成分分析和因子分析作为常用的数据降维方式对于从数据中提取有用信息有着非常重要的意义。本文对主成分分析和因子分析的算法进行了研究,并且在Spark平台上实现了这两种算法。本文的主要研究工作如下:(1)实现了基于Hadoop平台的一个数理统计的功能集,该功能集包括了最常用的数理统计功能:常用统计量(包括平均数、方差、众数、中位数等11个统计量)、单变量分析(通过计算一个因变量和多个自变量之间的协方差判断因变量和自变量之间的相关关系)、多变量分析(通过计算多个变量之间的相关系数矩阵来判断变量两两之间的相关关系)、假设检验(包括单变量T检验,成对样本T检验,独立样本T检验)、自助法(对数据进行重抽样,计算抽样样本的均值和方差)。(2)实现了基于Spark的主成分分析和因子分析。本文将分而治之的思想和QR分解应用到主成分分析和因子分析。分而治之的思想就是将“大问题”化成“小问题”,然后利用Spark分布式计算的能力并行解决小问题,尽最大努力节省计算时间。利用QR分解的方法(QR分解是效率最高的矩阵分解)用于分块矩阵特征值求解,提高“小问题”的运算效率。算法结合了分而治之的思想和高效的QR分解算法,并且充分利用了 Spark平台的并行运算能力。最后,本文通过对不同规模的数据集进行实验。实验结果表明,本文提出的并行算法能够提高运算效率。
其他文献
<正>2017年,北京高校普法微视频征集活动已举办五届。五年来,北京市委教育工委、北京市教委与时俱进、创新工作,北京教育音像报刊总社广泛宣传、完善组织,已将高校普法微视频
信息化的蓬勃发展促进了教育的创新与变革,也使得学习环境的建设迈入了新阶段。随着“三通两平台”建设高潮的掀起,教师个人网络空间应运而生,而教育信息化的本质就是实现教
PPP模式是政府部门完成公共设施建设的重要方式,既可以缓解公共设施建设的资金短缺和建设效率不够理想的问题,也可以拓展社会资本的获利空间。本文就社会资本在PPP项目中的风
在迈克尔&#183;杰克逊震惊世人地突然离世两年后,这位流行天王的畅销经典作品终于被获得管乐队的改编而热力四射地发行了。铜管乐团嘹亮的声音,将迈克尔&#183;杰克逊歌曲中的辉
第一条为了加强和规范农村集体资产监督管理,维护农村集体经济组织及其成员的合法权益,支持和促进农村集体经济可持续发展,根据《中华人民共和国民法总则》、《中华人民共和
<正>科尔尼咨询机构的最新研究表明,受国际业务量和B2C业务量增长的驱动,2011年欧洲快递与包裹市场实现4%的稳定增长,未来几年还会延续这种趋势。调查显示,2011年欧洲快递与