论文部分内容阅读
互联网技术日益发达,网络上的数据量呈爆炸式增长,海量数据的管理和维护,对企业和个人来说,都面临着巨大的困难,不仅成本高昂,而且在海量数据存取的可靠性和可用性方面也都存在着巨大的问题。Google公司提出的GFS文件系统,最早给出了完整有效的海量数据存储理论框架,并面向大型分布式数据密集型应用,建立以大量异构的存储机器为基础的集群,实现海量数据的存储和读取的高性能服务,并提供良好的系统容错性。本文是以Google的GFS文件系统理论为基础,结合海量数据存储的特点以及存储的高可靠性,并针对数据存储节点的异构性,提出基于机器存储性能和数据块访问次数等因素的负载计算模型,并给出了数据存储节点选择优化策略、数据读取节点选择优化策略以及负载均衡节点选择优化策略,同时将优化策略和默认策略进行性能上的对比。论文在详细分析海量数据存储理论、方法、技术的基础上,对系统的整体结构进行设计,细分系统各个部分的功能,给出存储系统的功能设计,并实现了包括数据存储功能、集群节点管理功能以及节点优化选择功能在内的海量数据存储系统软件,最后进行了系统测试。论文实现的系统能够有效完成海量数据的基本存储功能,并提供了一定的容错性,系统的读写性能表现良好,基于基本存储服务所提出的节点优化选择策略,在系统负载均衡性方面比默认策略更均衡,并且能够在一定程度上提升海量数据的读写速度。