高维数据降维处理关键技术研究

来源 :电子科技大学 | 被引量 : 26次 | 上传用户:herry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科学技术的飞速发展,信息的表示越来越全面,人们获取数据越来越容易、关注的数据对象日渐复杂,业界对数据分析、处理技术的需求最为迫切,特别是对高维数据的分析与处理。高维数据降维一直备受计算机科研相关领域的关注。在这个并行计算、分布式计算火热的信息化时代,如何使用分布式实现对海量高维数据的分析处理,是当今研究所面临且亟待解决的挑战性问题,具有重要的现实应用的意义和研究价值。直接处理高维数据面临“维数灾难”、“算法失效”等困难,一种有效的解决办法就是对高维数据进行降维。主成分分析(PCA)算法是经典的线性降维技术,算法简单,具有无线性误差、无参数限制等优点,适用于线性数据,但内存消耗大,计算复杂度高。当PCA用于高维稀疏大数据的降维时,存在内存消耗巨大、处理时间很长,计算特征之间的协方差矩阵存在很大困难。针对上述问题,本文所做主要工作如下:1)提出基于信息熵的高维稀疏大数据降维算法E-PCA针对PCA算法用于高维稀疏大数据降维时,由于特征维数太高,无法一次性将所有数据特征读入内存以进行线性变换的问题,采用分块处理技术进行处理时,耗时太长s,不能满足实际应用需求,提出基于信息熵的高维稀疏大数据降维算法(E-PCA)。根据特征的信息熵值做特征选择,大大降低了特征数量,再通过矩阵变换进行特征提取,达到双重降维的目的。仿真实验从内存占用、运行时间、降维后的结果维数以及分类准确率四个方面,对PCA和E-PCA进行对比分析,证明E-PCA的高效性。2)提出基于MapReduce的高维数据降维的分布式处理流程以分布式处理平台Hadoop为基础,分析其分布式处理实现原理,针对算法PCA和E-PCA,提出PCA算法基于MR的分布式降维处理流程和E-PCA算法基于MR的分布式降维处理流程。搭建Hadoop集群,编写实现代码,实现了PCA和E-PCA算法在Hadoop平台的分布式处理。以真实高维稀疏大数据进行降维测试,进一步证明E-PCA的优于PCA算法。
其他文献
情感教育是中学思想政治教育的重要组成部分。本文试图分析中学思想政治课教学中的情感教育的内涵,针对情感教育所存在的问题,提出相应的解决措施,以期中学的情感教育发挥更
本文针对2006至2009年生物高考广东卷、上海卷、全国卷实验部分进行了综述,发现近几年实验试题的题型更加独特、创新、多样化,拓展型和自主设计实验成为实验试题的主流,并对
位于计算机存储介质上的信息都是数据,使之发生非主观意愿之外的变化都可视为破坏,那么数据恢复就是把异常数据还原为正常数据的过程。本文主要阐述了硬盘数据结构的相关知识
针对金塘大桥承台数量多、混凝土量大、强度高、所处环境恶劣等特点研究海工大体积混凝土的配制技术。配合比设计以耐久性为核心,以混凝土各项性能的均衡发展为目标,遵循抗氯离
试验研究了混凝土养护剂对混凝土保水性、力学性能、变形性能和抗开裂等性能的影响。试验结果表明,对混凝土表面涂刷养护剂,可以增强混凝土早期的保水能力,提高混凝土抗压强
电力光传输网所依托的底层光缆有普通光缆和电力线特种光缆2种类型。输电线路与电力特种光缆线路配比指标是影响电力光传输网络建设成本的一个重要因素。在充分考虑电力光缆
目的探讨急性心肌梗死后并发室间隔穿孔的发病特点、诊断、治疗方法及近中期疗效。方法我院2006年5月~2015年2月收治急性心肌梗死患者3789例,其中合并室间隔穿孔患者30例,回
近年来,网购的推动作用使国内电子商务迅猛发展,物流等服务水平成为电子商务企业发展的关键性因素。京东作为电子商务领域的代表,有巨大影响力,物流配送在京东的日常运营中的
<正>随着科学技术的发展,人们物质文化生活水平和审美观点的提高,各高校对校园绿化的要求不简单的局限于"绿",逐渐向更高层次和水平提出要求,对绿化的景观效果、文化内涵提出
学生资助是一项重要的保民生、暖民心工程,事关教育公平,事关社会公平,事关全面建成小康社会。2019年,在习近平新时代中国特色社会主义思想指引下,各级教育、财政等部门和各级各类
报纸