论文部分内容阅读
随着信息科学技术的飞速发展,信息的表示越来越全面,人们获取数据越来越容易、关注的数据对象日渐复杂,业界对数据分析、处理技术的需求最为迫切,特别是对高维数据的分析与处理。高维数据降维一直备受计算机科研相关领域的关注。在这个并行计算、分布式计算火热的信息化时代,如何使用分布式实现对海量高维数据的分析处理,是当今研究所面临且亟待解决的挑战性问题,具有重要的现实应用的意义和研究价值。直接处理高维数据面临“维数灾难”、“算法失效”等困难,一种有效的解决办法就是对高维数据进行降维。主成分分析(PCA)算法是经典的线性降维技术,算法简单,具有无线性误差、无参数限制等优点,适用于线性数据,但内存消耗大,计算复杂度高。当PCA用于高维稀疏大数据的降维时,存在内存消耗巨大、处理时间很长,计算特征之间的协方差矩阵存在很大困难。针对上述问题,本文所做主要工作如下:1)提出基于信息熵的高维稀疏大数据降维算法E-PCA针对PCA算法用于高维稀疏大数据降维时,由于特征维数太高,无法一次性将所有数据特征读入内存以进行线性变换的问题,采用分块处理技术进行处理时,耗时太长s,不能满足实际应用需求,提出基于信息熵的高维稀疏大数据降维算法(E-PCA)。根据特征的信息熵值做特征选择,大大降低了特征数量,再通过矩阵变换进行特征提取,达到双重降维的目的。仿真实验从内存占用、运行时间、降维后的结果维数以及分类准确率四个方面,对PCA和E-PCA进行对比分析,证明E-PCA的高效性。2)提出基于MapReduce的高维数据降维的分布式处理流程以分布式处理平台Hadoop为基础,分析其分布式处理实现原理,针对算法PCA和E-PCA,提出PCA算法基于MR的分布式降维处理流程和E-PCA算法基于MR的分布式降维处理流程。搭建Hadoop集群,编写实现代码,实现了PCA和E-PCA算法在Hadoop平台的分布式处理。以真实高维稀疏大数据进行降维测试,进一步证明E-PCA的优于PCA算法。