论文部分内容阅读
如今人们已经进入云时代,该环境下存储文件与用户数据呈现快速上升趋势,云存储的重要性也日益凸显。基于云理念下面向保存海量数据而制定的一种解决方案,被称作云存储,云存储技术的关键在于运用集群技术、分布式文件系统在云端集中管理散落在网络上的存储资源,以满足云环境下数据的存储需求。大数据存储技术中应用范围最广且最成熟的为HDFS系统,基于HDFS自身存储机制,在处理大量小文件时,面临名字节点内存较小等问题。因此,通过HDFS系统上的优化策略读取与文件存储技术分析,在探讨处理大数据处理、海量小文件方面具有一定现实意义。以下为本文完成的工作内容:(1)本文提出PS文件合并算法,本算法主要用于存储海量小文件方面,可以达到数据块与文件关联关系的相互平衡,组合多个小文件为大文件后在HDFS系统上保存,合并所有文件信息后保存在Redis内,利用本算法可以最大限度的使用较少的数据保存信息。基于本算法建立HMM中间层对海量小文件处理,获取HDFS上数据过程中采用缓存方式使得读取信息效率更高。(2)基于Hadoop的分布式文件系统框架,根据小文件上的扩展名分为不同类型进行处理,完成后再组合为一个大文件,从而消耗NameNode内存量下降。(3)通过结合最近最少使用算法、最不经常使用算法,在某段时间内对频率较高的文件合并进行读取,然后再存储至缓存与文件预期中,用户发送读取预取请求与缓存文件后,无需与NameNode之间进行数据交互,可对小文件读取,读取文件效率与速度更快。(4)深入研究操作海量小文件存储平台上的用户,并对用户使用的功能需求总结,基于开源的Hadoop框架对开发环境部署,从数据资源文件数量、体积及非结构化程度等方面出发,结合Redis内存型数据库与MySQL关系型数据库,共同创建云存储平台。