论文部分内容阅读
随着计算机技术、网络应用和多媒体技术的不断发展,学习者的学习观念和学习形式也在不断的发生转变。在这种转变下网络学习满足了学习者的终身学习和开放式学习的需要,成为学习者学习的一个重要途径和方式。在这种形式下,网络学习资源的组织和提供成了整个学习过程中的核心部分。为了满足学习者的需求,各个单位也分别开发了自己的资源库。但是,随着各个学科不断的发展,学习内容不断的丰富,学习资源形式的不断更新,对于这些资源的管理就成了一个核心问题。传统资源库对于大量的学习资源的存储,基本的解决方法是采用升级硬件设备的方法,但是随着学习资源爆炸式的增长,使很多设备提前“退役”,降低了系统的经济性。这种方法带来巨大的资金投入,形成了硬件瓶颈,但是没有从根本上解决问题。云计算思想在数据资源中的应用,为解决海量学习资源的存储提供新的解决方案。通过对文献资料的分析研究,发现采用分布式集群存储思想是解决这个问题的最佳方案。本文在分析现有的学习资源发展形势和国内外资源库及云计算应用的研究现状,结合Hadoop系统平台的自身关键技术和存储架构,设计了一种基于Hadoop云计算平台的海量学习资源分布模型。本课题以HDFS为文件存储,以HBase为元数据存储,构建在低廉的计算机集群上,实现海量学习资源存储的分布模型。该模型提高了系统的稳定性,扩展性和存取高效性。本课题重点研究的内容是在研究Hadoop关键技术的基础上,结合海量学习资源的特点,针对Hadoop在处理海量小文件时产生的高内存、高磁盘碎片及中心节点的压力过大等问题,设计了学习资源分布模型。在Hadoop模型的基础上进行优化,设计了以Hadoop为核心的四层架构模型,针对海量学习资源中有众多小文件和学习资源之间存在内在联系的特点,优化了学习资源文件的分布存储策略和元数据存储的数据结构,在实验室条件下使用七台计算机,借助虚拟机软件模拟部署了资源分布模型,并在此模型上进行现有数据的模拟测试。本课题通过对学习资源的特点设计了分布模型,满足了对资源存储的可靠性、高效性、可扩展性、低成本的要求。通过实验室的模拟测试,验证了模型的可用性和小学习资源文件的存储策略的正确性。