论文部分内容阅读
随着社会的飞速发展,各个领域的研究针对不同的需求,需要对各种数据类型的大量数据进行分析,这就要求灵活并且高效的大数据处理平台。Hadoop作为开源的大数据并行处理平台,广泛应用于各个领域。但是由于Hadoop自身的工作模式和元数据存储方式,影响着数据并行处理效率。Hadoop并行计算导致网络中数据流量阶段性爆发一定程度上造成网络阻塞;Hadoop工作对主节点的依赖,在高频率工作的情况下,对主节点造成不小的负担;处理小文件时效率低下并且内存占用率高等问题都会影响Hadoop数据并行处理效率。
在本研究中,通过交换节点缓存的方式来优化Hadoop数据并行处理的效率。为了实现交换节点缓存,提出并实现了交换级SSD的概念。交换级SSD作为交换设备的同时具有智能数据缓存的功能,通过扩展固态硬盘SSD作为OpenFlow交换机的缓存空间,并通过OpenFlow控制器来指示交换机进行数据转发和数据缓存。Hadoop能够灵活高效的处理大量数据得益于MapReduce并行计算框架和HDFS分布式文件系统,为了优化Hadoop平台并行数据处理效率,提出交换级SSD缓存支持的数据并行优化策略。优化策略通过缓存的方式对MapReduce和HDFS进行优化来提高Hadoop并行处理的效率。对于MapReduce框架,交换级SSD缓存支持的优化策略采用缓存MapReduce计算结果的方式,减少Hadoop集群MapReduce任务,缩短请求响应时间和缓解频繁的计算请求给主节点带来的负担;对于HDFS文件系统主要解决小文件问题,交换级SSD缓存支持的优化策略将HDFS文件系统中所有的小文件进行缓存,提高文件系统对小文件读取的效率和解决小文件对主节点内存占用。实验表明,交换级SSD缓存确实降低了Hadoop主节点的内存占用率、优化MapReduce并行计算框架和HDFS文件系统,从这三方面提升了Hadoop数据并行处理的效率;同时交换级SSD的数据转发功能与传统交换机没有差别,不会影响到Hadoop集群中的并行数据处理。
在本研究中,通过交换节点缓存的方式来优化Hadoop数据并行处理的效率。为了实现交换节点缓存,提出并实现了交换级SSD的概念。交换级SSD作为交换设备的同时具有智能数据缓存的功能,通过扩展固态硬盘SSD作为OpenFlow交换机的缓存空间,并通过OpenFlow控制器来指示交换机进行数据转发和数据缓存。Hadoop能够灵活高效的处理大量数据得益于MapReduce并行计算框架和HDFS分布式文件系统,为了优化Hadoop平台并行数据处理效率,提出交换级SSD缓存支持的数据并行优化策略。优化策略通过缓存的方式对MapReduce和HDFS进行优化来提高Hadoop并行处理的效率。对于MapReduce框架,交换级SSD缓存支持的优化策略采用缓存MapReduce计算结果的方式,减少Hadoop集群MapReduce任务,缩短请求响应时间和缓解频繁的计算请求给主节点带来的负担;对于HDFS文件系统主要解决小文件问题,交换级SSD缓存支持的优化策略将HDFS文件系统中所有的小文件进行缓存,提高文件系统对小文件读取的效率和解决小文件对主节点内存占用。实验表明,交换级SSD缓存确实降低了Hadoop主节点的内存占用率、优化MapReduce并行计算框架和HDFS文件系统,从这三方面提升了Hadoop数据并行处理的效率;同时交换级SSD的数据转发功能与传统交换机没有差别,不会影响到Hadoop集群中的并行数据处理。