论文部分内容阅读
随着大数据时代的来临,网络数据的海量增长给传统数据处理系统带来了严峻的考验。一方面,从互联网如网购、社交网站产生的大量数据蕴藏着丰富的社会信息,经过一定的分析挖掘能带来可观的社会、经济效益甚至科研价值。另一方面,数据量的海量增长急速提升了数据的存储与计算量。数据的响应速度、可靠性和稳定性的要求被提升到了新的高度。传统的文件存储系统以及传统关系型数据库系统的局限性日益显现。分布式存储系统与列数据库技术应运而生。基于目前的分布式存储系统不能满足列数据库的存储要求的现状,本文设计了一个面向列数据库的分布式存储系统。针对列数据库的数据密集、面向高性能查询的特性,本文通过设立多个监控节点和操作节点,将集中式管理节点的部分功能进行了迁移;并通过提出对等负载均衡策略,取代集中式负载管理功能,总体优化了目前主流的分布式文件系统模型。此外,基于该分布式文件系统的节点模型,本文提供了对等共享缓存架构的设计,进一步为分布式存储系统提供缓存架构的支持。针对列数据库文件适合进行压缩处理的特性,本文为分布式存储系统设计了配置化的压缩框架。基于压缩框架,可以动态添加和配置针对不同类型数据的压缩算法,为特定类型数据提供透明的压缩支持。同时本文实现了该存储系统以及对等共享缓存架构,并进行了存储功能与性能的实验测试。实验结果表明,本文设计的分布式存储系统性能较HDFS系统有较大提升,在100Mbps网络环境下,1MB数据写入速度为HDFS的16.81倍;平均读速度比HDFS提升了25.34%,写速度提升了18.25%;列数据库文件批量上传速度比HDFS提高了19.8%。此外,缓存架构与压缩框架具有强的可用性与优秀的性能表现,测试结果符合设计预期。总体而言,本文设计及实现的分布式存储系统有着良好的性能表现,相比主流的分布式存储系统,有着一定的创新性与实验性。并且对列数据库有着适应性和针对性,为列数据库的分布式计算提供了良好的存储支撑。