论文部分内容阅读
随着大数据时代的到来,作为其基础服务载体的数据中心也随之迅猛发展。大数据产业繁荣的背后,带来的却是耗电量暴涨、环境污染增加、土地资源消耗等不可避免的问题。就能耗而言,耗电量的成倍增长直接导致运营和管理的成本上升,因此降低数据中心的能耗,特别是降低服务器集群的能耗,就成了学术界和工业界共同关心的重大问题。本文以数据量日益增长的新闻类网站为对象,深入分析和研究了新闻网站的访问日志数据,初步探寻出新闻类数据的访问规律。本文将这些访问规律引入到目前广泛使用的Hadoop分布式文件系统(HDFS)中,对其进行有针对性的改进和优化,使HDFS最终具备节能和数据分布自均衡的特点。具体来说,本文提出了数据节点分区、最大剩余空间节点匹配、文件迁移和节点待机四条节能策略。数据节点分区策略将整个集群逻辑上分为“冷”、“热”两个区域,以便实施不同的管理方法,达到节能的目的;最大剩余空间节点匹配策略专门针对数据分布均衡的问题,又分为活动状态节点优先(Active State Node Priority,简记为ASNP)匹配和低于平均使用率节点优先(Lower than Average utilization rate Node Priority,简记为LANP)匹配两种方案,其中前者方案能达到更好的节能效果,后者方案能实现数据分布自均衡,从而在一定程度上平衡集群的负载;文件迁移策略则保证了新闻数据在其热门期的高效访问,同时又能为热区的节点减轻负载,降低冷区节点的能耗;节点待机策略将冷区中没有任务的节点置为待机省电状态,避免了“空转”现象的发生,减少了集群的整体能耗。为了研究和验证节能存储策略在HDFS中应用的效果,本文还开发了面向节能存储策略研究的HDFS仿真实验平台,平台通过模拟新闻文件被创建和访问的调度过程,加入了可拔插的节能策略模块,最终输出仿真结果。本文以维基英文新闻网站一个月的访问日志作为实验数据集,经过预处理后,在本文节能策略的作用下,实验结果表明:使用本文节能策略的HDFS比传统HDFS节能20%-34%,如果同时采用低于平均使用率优先的最大剩余空间节点匹配策略,则可现实集群数据分布的自均衡,另外,99.8%以上的读文件操作响应时间都不受本文节能策略的影响,证明了策略的可行性。