论文部分内容阅读
随着云计算技术的发展以及被业界所逐渐接受,与之相随的云存储系统也得到相应的发展,越来越多的企业和科研机构开始使用云平台构建各自的云存储体系,而在众多云平台中,开源实现的Hadoop云平台得到了业界广泛的应用,包括Yahoo、Facebook以及IBM等。Hadoop云平台对数据的存储主要是由其分布式文件系统HDFS实现的,因此对于HDFS的研究成为了很多公司构建各自云存储系统的基础。HDFS系统默认的存储策略虽然可以有效的解决大数据的存储但是在现实应用中却存在一些不足,在默认的HDFS存储策略中,数据节点的状态信息不够完善以及随机选择数据节点,使得控制节点在选择数据节点存储的时候容易出现系统负载不均衡,另外当随机选择远端节点进行存储的时候可能会造成因为节点之间网络距离较远而造成数据传输时间过长损耗系统性能的现象,同时由于HDFS默认存储策略采用了固定的数据副本个数,在实际应用中可能会导致系统中数据冗余太多,影响系统的负载能力。因此解决了上述问题,就可以在一定程度上提高HDFS系统的存储性能。所以,本文在分析HDFS默认策略的不足之后,基于HDFS设计一种优化的存储策略。该策略首先对数据节点的状态信息进行完善,为控制节点在选择数据节点进行数据存储的时候提供了更多的依据。其次,该策略可以根据用户的实际需求设置数据副本系数。再次,在随机选择数据节点时采用了评价值方法,即根据节点的负载情况以及与本地节点的网络距离计算该节点的评价值。最后通过将优化后的策略部署到仿真实验平台上,验证了该策略的可行性以及测试了该策略的效率。实验证明,优化后的策略确实能够提高系统的存储性能,有效的平衡了节点之间的负载,减少了系统瓶颈出现的可能性,同时加强了用户体验。HDFS分布式文件系统运行在Hadoop云平台上,优化的存储策略可以实际应用到企业和科研机构的云数据中心,同时因为该策略具有较高的可配置性,在实际应用中可以根据不同的需求来进行配置,从而有效地提高海量数据的存储性能。