面向新闻大数据的节能存储策略研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:z18388596
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,作为其基础服务载体的数据中心也随之迅猛发展。大数据产业繁荣的背后,带来的却是耗电量暴涨、环境污染增加、土地资源消耗等不可避免的问题。就能耗而言,耗电量的成倍增长直接导致运营和管理的成本上升,因此降低数据中心的能耗,特别是降低服务器集群的能耗,就成了学术界和工业界共同关心的重大问题。本文以数据量日益增长的新闻类网站为对象,深入分析和研究了新闻网站的访问日志数据,初步探寻出新闻类数据的访问规律。本文将这些访问规律引入到目前广泛使用的Hadoop分布式文件系统(HDFS)中,对其进行有针对性的改进和优化,使HDFS最终具备节能和数据分布自均衡的特点。具体来说,本文提出了数据节点分区、最大剩余空间节点匹配、文件迁移和节点待机四条节能策略。数据节点分区策略将整个集群逻辑上分为“冷”、“热”两个区域,以便实施不同的管理方法,达到节能的目的;最大剩余空间节点匹配策略专门针对数据分布均衡的问题,又分为活动状态节点优先(Active State Node Priority,简记为ASNP)匹配和低于平均使用率节点优先(Lower than Average utilization rate Node Priority,简记为LANP)匹配两种方案,其中前者方案能达到更好的节能效果,后者方案能实现数据分布自均衡,从而在一定程度上平衡集群的负载;文件迁移策略则保证了新闻数据在其热门期的高效访问,同时又能为热区的节点减轻负载,降低冷区节点的能耗;节点待机策略将冷区中没有任务的节点置为待机省电状态,避免了“空转”现象的发生,减少了集群的整体能耗。为了研究和验证节能存储策略在HDFS中应用的效果,本文还开发了面向节能存储策略研究的HDFS仿真实验平台,平台通过模拟新闻文件被创建和访问的调度过程,加入了可拔插的节能策略模块,最终输出仿真结果。本文以维基英文新闻网站一个月的访问日志作为实验数据集,经过预处理后,在本文节能策略的作用下,实验结果表明:使用本文节能策略的HDFS比传统HDFS节能20%-34%,如果同时采用低于平均使用率优先的最大剩余空间节点匹配策略,则可现实集群数据分布的自均衡,另外,99.8%以上的读文件操作响应时间都不受本文节能策略的影响,证明了策略的可行性。
其他文献
随着信息技术的进步和Internet的迅速发展,一个全球性的信息社会正在逐渐形成,Web上提供的服务呈指数级增长,必须要有一个合适的服务发现机制来支持Web服务。但是目前在Web服务
目前,多处理器系统单晶片已经成为高性能芯片领域的研究热点之一,而片上网络(NoCs)技术则是解决多处理器系统单晶片上信息传输问题的一个重要方法。在NoCs设计方面,随着半导
动态对等群(Dynamic Peer Group(DPG))属于Ad Hoc群的一种,其最显著的特性是对称性和动态性。群中每一个成员都是平等对称的,任何成员无权擅自决定群密钥,同时成员加入或退出
随着数据库技术的不断发展,分布式数据库的应用变得越来越广泛。由于在分布式数据库系统中数据的冗余和分布,增加了分布式数据查询的难度和复杂度,如何更加有效的查询数据是
在传统的软件集成开发环境中,大多数仅实现了编程界面的可视化,对于程序执行过程及调试过程中的信息缺乏动态和直观的显示。另外,传统的软件集成开发环境在平台无关性等方面
随着网络应用的普及和全球通信业务的日益增长,网络流量的控制和管理显得尤为重要。长期以来,网络流量建模和分析都以泊松分布和马尔可夫过程理论为基础,而近年来大量对网络
复杂动态分布式实时系统中的服务质量QoS的描述、控制、管理、协商及保证是一项非常复杂和具有挑战性的工作,服务质量QoS直接关系到系统的性能。但是QoS的研究仍缺乏完整、清
近年来,互联网技术得到了前所未有的巨大发展。它给我们带来了一种全新的生活方式,对我们的生活带来了极大的方便。互联网成功的关键在于其庞大的信息容量以及它的内容不需要
旅行商问题(’Traveling Salesman Problem, TSP)又称为推销员问题、货郎担问题,简称为TSP问题。该问题是在寻求单一旅行者由起点出发,通过所有给定的需求点之后,再回到原点
控制回路设计是水电仿真系统的重要组成部分。目前对控制回路的设计,主要是针对具体水电站的控制回路,而不同水电站的控制回路也不同,重用性和扩展性差。图形化编程符合水电电气