论文部分内容阅读
尽管信息生命周期管理(ILM)将数据管理理念提升到了一个新的境界,但实现它却不那么容易,不但操作复杂,而且成本昂贵。不过,这种尴尬的局面正在改变,一种被称为“自动分层存储”的技术已经出现,它将使ILM的美梦变成现实。
数据与设备要“门当户对”
数据分三六九等,存储设备有高低贵贱。自动分层存储就是要让数据和设备“门当户对”。
数据有生命周期。比如移动计费系统,每月手机的话费数据可能在数据生成后的三个月内被多次访问,在一年内偶尔被访问,再往后可能就无人问津了,成为了归档数据,但只有当它到了规定的年限,才能被删除。
存储设备有高低贵贱之分。性能好、可靠性高、读写速度快的设备,自然价格就高;而性能较低、读写速度慢的设备,价格也就相对低廉。
因此,就出现了数据分层存储的概念。“分层”是指,对数据的访问需求增加或减少时,将数据在不同类型的存储介质之间迁移,即把那些不常被访问的数据或过时的数据转移到速度较慢、成本较低的存储介质上,如SATA磁盘或磁带,以此来降低硬件成本;而把那些经常被访问或重要的数据放在速度较快、成本较高的光纤磁盘甚至固态硬盘(SSD)上,以此来提升性能。
分层存储的概念已经出现好几年了,并且这一概念被EMC、STK(后被Sun收购)等厂商升华为信息生命周期管理(ILM)。不过,这一数据管理的理想因为操作复杂、成本较高,实现起来却不那么理想,ILM成了叫好不叫座的梦想。
自动分层应运而生
以往,数据的分层存储依靠存储管理员的手工操作。如今,这一过程实现了自动化,智能软件可以自动将数据转移到最经济高效的存储介质上。
长期以来,存储管理员尽管能在多个存储层之间迁移数据,但这个过程是他们必须手动执行的,至少需要事先对数据进行分类,制定分层策略。尽管最新的自动化分层软件产品仍需要一部分制定策略的工作,但其目的却是为了不需要或尽量不需要管理人员来做这些工作,包括监控存储系统,找出需要重新分层的特定文件、卷或块,然后进行手动转移。
智能化的自动分层软件改变了这一局面。不过,当你考虑采用这一新技术时,请你先考虑清楚以下问题:这个软件是否提供文件级和块级分层混合方案?由于性能或数据检索方面的原因,你是否能暂时禁用自动分层技术?如果使用自动精简配置或重复数据删除等功能,它是否支持这些功能?它是否支持子LUN分层?产品的提供商是否有进一步自动化的升级计划?IT管理人员还必须分析自动化软件能够考虑哪些标准(比如数据访问频率),以及它能不能评估及转移单个的块或文件,而不是只能评估及转移较大的卷或LUN。一般来说,一个卷中可能只有10%的块很活跃,因此,有必要将其转移到速度较快、成本较高的存储介质上,如果能转移到SSD上,则效果尤其明显。
需要考虑的其他因素包括:这一软件发现及应对数据使用模式变化的速度有多快?如果自动化分层技术影响了应用程序的性能,管理员能不能暂时禁用这项技术?管理员还能用它来预测何时需要某些数据(比如季度末所需的会计文件),那样分层软件就能事先更新数据。最后,管理员还要确定是否习惯把控制权拱手让给这样一款自动化工具。
收效显著
多年来,IT部门一直在为实现ILM而努力。那些对自动化数据分层技术率先“尝鲜”的用户表示,他们借助目前市面上现有的分层软件,收到了相当大的成效。
大约5年前,美国司法部的IT主管Sandee Sprang建立起了一个存储区域网络(SAN),使用Compellent公司的Data Progression软件实现了自动化分层技术,因为她手下没有人能确定需要把哪种类型的记录放到最高效的存储介质上,以确保高速访问。为Compellent系统制定策略仅用了约4个小时,她说:“收到的效果太明显了。”他们存储管理的时间从以前每个星期24个小时缩短至2个小时。她表示,Compellent的块级分层技术还有助于提高磁盘利用率;“它并不是把整个案件的档案数据在多个存储层上下迁移,迁移的只是你所访问的某个案情摘要或者15年前的某段文字记录。”
在索尔克生物研究院(Salk Institute)的计算神经生物学实验室,技术系统架构师Brian Nielsen所在的科学计算环境的工作负载变化很大,因而他很重视Avere公司的NAS存储设备提供的实时分析和重新分层功能。他表示,在测试并最终购买这款设备之前,迁移数据、确认应该迁移哪些数据很困难。不像早期的ILM产品只是零散地对数据进行重新分层,而且单单根据上一次访问是什么时候来重新分层,Nielsen说:“Avere系统能够识别许多不同的文件输入/输出属性;应用程序需求发生变化后,可以动态地对数据进行分层。”
美国Foster Pepper PLLC律师事务所的网络和系统运营经理Brian Bosserman现正在试用EMC公司的完全自动化存储分层(FAST)技术,该律师事务所的办公室都在运行EMC Celerra NS-480。他估计,该技术现在可以用来监控服务器的存储需求,然后做好规划,对服务器间的虚拟机重新分层的时间能节省10%。他表示,借助FAST,希望让EMC的Rainfinity文件管理设备进行监控,并“根据我为它设定的策略”进行数据迁移。Bosserman说,FAST的安装非常简单,“它作为一个VMware虚拟设备而出现。我只要导入FAST设备,把它作为Unix设备来启动,然后通过网络界面即可进入它,通过界面进行设置。”
不过,自动化数据分层的确需要事先做一些工作,以便对数据进行分类,制定确定某些类型的数据何时需要转移的策略(根据数据年限、应用程序性能或者法律、法规的要求来转移)。一般人的看法是,所有这些工作会破坏之前采用的“分层”方法,比如ILM。但至少有一个大用户,即英特尔的CIO Diane Bryant,却在考虑自动化分层之前实施一套正规的ILM流程。去年,Bryant着手开展ILM工作,希望减少英特尔年复合增长率高达35%的存储需求。到目前为止,这家公司49%的结构化数据和30%的非结构化数据已由ILM来进行管理。
Sanford Coker是威尔康奈尔医学院的Unix高级管理员,他正开始在其开发和测试环境使用3PAR公司的Policy Advisor软件。
他表示,安装很容易,制定每一项策略也只要大约30分钟,不过调整这些策略以获得最佳性能又花了一个星期左右的时间。他表示,据自己非常保守的估计,把数据迁移到成本较低、容量较大的SATA磁盘上后,可以把正在使用的光纤磁盘减少25%。
促进SSD应用
SSD的出现使自动分层技术显得更加有必要,它能使一个两层甚至三层的存储系统享有SSD级的性能,同时,反过来又促进了SSD的应用。
随着自动化数据分层技术不断成熟,它也许有助于促进SSD的采用,因为它可以帮助管理员将分层技术调整到足够优化的地步,从而确保能够从性能最高但成本也最高的存储介质中获得最大效益。不过,大家普遍认为,眼下SSD对大多数主流用户来说还是成本过高。
通过对磁盘驱动器“缩短行程”(short-stroking)的方法,即有意只使用一部分存储容量来提升性能,以牺牲存储空间来换取性能的做法仍然比较经济高效。分层功能的价格有的免费(比如现有产品中已经内含了分层软件),有的高达5万美元以上,比如Avere的2300 FCN等系统。当然,用户还必须考虑对数据进行分类、制定分层策略所需的成本。
自动化数据分层不但可以自动转移数据,还可以让这项任务实现自动化:监控数据在如何使用,确定哪些数据应该放在哪一种存储介质上。目前,这项自动化分层技术还没有进入主流,原因是很少有厂商提供这项技术,而且事实证明,它目前还不适合非常高端的事务密集型环境。另外,它通常只应用于某家厂商的存储阵列或文件系统里面,或者仅仅支持数量有限的存储协议或拓扑结构。但是对要求比较简单的企业组织来说,如今市面上的自动化分层工具其表现已足够好。
EMC等主要供应商正在致力于让自动化数据分层技术增强“识别应用”的功能,这意味着这种软件将来能够知道几种流行应用程序的输入/输出要求及其他使用模式,然后自动重新分层,以满足这些要求。这种互操作性需要为关于重新分层的数据的信息(元数据)确定标准。据说,存储网络工业协会(SNIA)正在开发这样一项元数据标准。这些标准有助于实现更容易跨不同供应商生产的设备或文件系统进行分层,还有可能便于针对内部数据中心和云存储系统之间的数据进行分层。
链 接
从数据自动分层中受益
Michael Glenn在浪费存储资源,这点他自己也很清楚。
文档扫描项目带来了一个容量高达1.4TB的LUN,这组磁盘里面放着以前的庭审记录。作为美国一家法庭的高级IT管理人员,Glenn知道去年访问过的文件只占区区6%,也知道其余文件不该放在成本高昂的光纤磁盘上。
他面临的难题在于,决定什么时候把剩余94%中的哪部分文件转移到速度较慢、成本较低的SATA磁盘上。幸运的是,他终于等到了所需的软件,即动态存储技术(DST),这是他安装的Novell Open Enterprise Server 2系统的一部分,可用来创建文件转移策略,并根据文件上一次访问的时间来自动转移文件。
Glenn表示,他今年春季花了一星期来调整配置后,他就不管这款软件了,它一直很顺畅地运行,并腾出了至少十几个光纤磁盘的空间。由于减少了活动文件的数量,他还将每日备份时间从原来的14个小时缩短至47分钟。
软件安装起来很简单,配置也只需要把旧的LUN迁移到SATA磁盘上,重新命名该LUN,在光纤磁盘上创建一个比较小的LUN来代替它,并将新的LUN指定为主卷,把旧的LUN指定为镜像卷。Glenn说:“然后,我开始制定迁移规则。”他补充说,DST不需要什么额外成本,不过他估计,由于减少了对磁盘驱动器和电力的需要,他应该省下了约14万美元的费用。
数据与设备要“门当户对”
数据分三六九等,存储设备有高低贵贱。自动分层存储就是要让数据和设备“门当户对”。
数据有生命周期。比如移动计费系统,每月手机的话费数据可能在数据生成后的三个月内被多次访问,在一年内偶尔被访问,再往后可能就无人问津了,成为了归档数据,但只有当它到了规定的年限,才能被删除。
存储设备有高低贵贱之分。性能好、可靠性高、读写速度快的设备,自然价格就高;而性能较低、读写速度慢的设备,价格也就相对低廉。
因此,就出现了数据分层存储的概念。“分层”是指,对数据的访问需求增加或减少时,将数据在不同类型的存储介质之间迁移,即把那些不常被访问的数据或过时的数据转移到速度较慢、成本较低的存储介质上,如SATA磁盘或磁带,以此来降低硬件成本;而把那些经常被访问或重要的数据放在速度较快、成本较高的光纤磁盘甚至固态硬盘(SSD)上,以此来提升性能。
分层存储的概念已经出现好几年了,并且这一概念被EMC、STK(后被Sun收购)等厂商升华为信息生命周期管理(ILM)。不过,这一数据管理的理想因为操作复杂、成本较高,实现起来却不那么理想,ILM成了叫好不叫座的梦想。
自动分层应运而生
以往,数据的分层存储依靠存储管理员的手工操作。如今,这一过程实现了自动化,智能软件可以自动将数据转移到最经济高效的存储介质上。
长期以来,存储管理员尽管能在多个存储层之间迁移数据,但这个过程是他们必须手动执行的,至少需要事先对数据进行分类,制定分层策略。尽管最新的自动化分层软件产品仍需要一部分制定策略的工作,但其目的却是为了不需要或尽量不需要管理人员来做这些工作,包括监控存储系统,找出需要重新分层的特定文件、卷或块,然后进行手动转移。
智能化的自动分层软件改变了这一局面。不过,当你考虑采用这一新技术时,请你先考虑清楚以下问题:这个软件是否提供文件级和块级分层混合方案?由于性能或数据检索方面的原因,你是否能暂时禁用自动分层技术?如果使用自动精简配置或重复数据删除等功能,它是否支持这些功能?它是否支持子LUN分层?产品的提供商是否有进一步自动化的升级计划?IT管理人员还必须分析自动化软件能够考虑哪些标准(比如数据访问频率),以及它能不能评估及转移单个的块或文件,而不是只能评估及转移较大的卷或LUN。一般来说,一个卷中可能只有10%的块很活跃,因此,有必要将其转移到速度较快、成本较高的存储介质上,如果能转移到SSD上,则效果尤其明显。
需要考虑的其他因素包括:这一软件发现及应对数据使用模式变化的速度有多快?如果自动化分层技术影响了应用程序的性能,管理员能不能暂时禁用这项技术?管理员还能用它来预测何时需要某些数据(比如季度末所需的会计文件),那样分层软件就能事先更新数据。最后,管理员还要确定是否习惯把控制权拱手让给这样一款自动化工具。
收效显著
多年来,IT部门一直在为实现ILM而努力。那些对自动化数据分层技术率先“尝鲜”的用户表示,他们借助目前市面上现有的分层软件,收到了相当大的成效。
大约5年前,美国司法部的IT主管Sandee Sprang建立起了一个存储区域网络(SAN),使用Compellent公司的Data Progression软件实现了自动化分层技术,因为她手下没有人能确定需要把哪种类型的记录放到最高效的存储介质上,以确保高速访问。为Compellent系统制定策略仅用了约4个小时,她说:“收到的效果太明显了。”他们存储管理的时间从以前每个星期24个小时缩短至2个小时。她表示,Compellent的块级分层技术还有助于提高磁盘利用率;“它并不是把整个案件的档案数据在多个存储层上下迁移,迁移的只是你所访问的某个案情摘要或者15年前的某段文字记录。”
在索尔克生物研究院(Salk Institute)的计算神经生物学实验室,技术系统架构师Brian Nielsen所在的科学计算环境的工作负载变化很大,因而他很重视Avere公司的NAS存储设备提供的实时分析和重新分层功能。他表示,在测试并最终购买这款设备之前,迁移数据、确认应该迁移哪些数据很困难。不像早期的ILM产品只是零散地对数据进行重新分层,而且单单根据上一次访问是什么时候来重新分层,Nielsen说:“Avere系统能够识别许多不同的文件输入/输出属性;应用程序需求发生变化后,可以动态地对数据进行分层。”
美国Foster Pepper PLLC律师事务所的网络和系统运营经理Brian Bosserman现正在试用EMC公司的完全自动化存储分层(FAST)技术,该律师事务所的办公室都在运行EMC Celerra NS-480。他估计,该技术现在可以用来监控服务器的存储需求,然后做好规划,对服务器间的虚拟机重新分层的时间能节省10%。他表示,借助FAST,希望让EMC的Rainfinity文件管理设备进行监控,并“根据我为它设定的策略”进行数据迁移。Bosserman说,FAST的安装非常简单,“它作为一个VMware虚拟设备而出现。我只要导入FAST设备,把它作为Unix设备来启动,然后通过网络界面即可进入它,通过界面进行设置。”
不过,自动化数据分层的确需要事先做一些工作,以便对数据进行分类,制定确定某些类型的数据何时需要转移的策略(根据数据年限、应用程序性能或者法律、法规的要求来转移)。一般人的看法是,所有这些工作会破坏之前采用的“分层”方法,比如ILM。但至少有一个大用户,即英特尔的CIO Diane Bryant,却在考虑自动化分层之前实施一套正规的ILM流程。去年,Bryant着手开展ILM工作,希望减少英特尔年复合增长率高达35%的存储需求。到目前为止,这家公司49%的结构化数据和30%的非结构化数据已由ILM来进行管理。
Sanford Coker是威尔康奈尔医学院的Unix高级管理员,他正开始在其开发和测试环境使用3PAR公司的Policy Advisor软件。
他表示,安装很容易,制定每一项策略也只要大约30分钟,不过调整这些策略以获得最佳性能又花了一个星期左右的时间。他表示,据自己非常保守的估计,把数据迁移到成本较低、容量较大的SATA磁盘上后,可以把正在使用的光纤磁盘减少25%。
促进SSD应用
SSD的出现使自动分层技术显得更加有必要,它能使一个两层甚至三层的存储系统享有SSD级的性能,同时,反过来又促进了SSD的应用。
随着自动化数据分层技术不断成熟,它也许有助于促进SSD的采用,因为它可以帮助管理员将分层技术调整到足够优化的地步,从而确保能够从性能最高但成本也最高的存储介质中获得最大效益。不过,大家普遍认为,眼下SSD对大多数主流用户来说还是成本过高。
通过对磁盘驱动器“缩短行程”(short-stroking)的方法,即有意只使用一部分存储容量来提升性能,以牺牲存储空间来换取性能的做法仍然比较经济高效。分层功能的价格有的免费(比如现有产品中已经内含了分层软件),有的高达5万美元以上,比如Avere的2300 FCN等系统。当然,用户还必须考虑对数据进行分类、制定分层策略所需的成本。
自动化数据分层不但可以自动转移数据,还可以让这项任务实现自动化:监控数据在如何使用,确定哪些数据应该放在哪一种存储介质上。目前,这项自动化分层技术还没有进入主流,原因是很少有厂商提供这项技术,而且事实证明,它目前还不适合非常高端的事务密集型环境。另外,它通常只应用于某家厂商的存储阵列或文件系统里面,或者仅仅支持数量有限的存储协议或拓扑结构。但是对要求比较简单的企业组织来说,如今市面上的自动化分层工具其表现已足够好。
EMC等主要供应商正在致力于让自动化数据分层技术增强“识别应用”的功能,这意味着这种软件将来能够知道几种流行应用程序的输入/输出要求及其他使用模式,然后自动重新分层,以满足这些要求。这种互操作性需要为关于重新分层的数据的信息(元数据)确定标准。据说,存储网络工业协会(SNIA)正在开发这样一项元数据标准。这些标准有助于实现更容易跨不同供应商生产的设备或文件系统进行分层,还有可能便于针对内部数据中心和云存储系统之间的数据进行分层。
链 接
从数据自动分层中受益
Michael Glenn在浪费存储资源,这点他自己也很清楚。
文档扫描项目带来了一个容量高达1.4TB的LUN,这组磁盘里面放着以前的庭审记录。作为美国一家法庭的高级IT管理人员,Glenn知道去年访问过的文件只占区区6%,也知道其余文件不该放在成本高昂的光纤磁盘上。
他面临的难题在于,决定什么时候把剩余94%中的哪部分文件转移到速度较慢、成本较低的SATA磁盘上。幸运的是,他终于等到了所需的软件,即动态存储技术(DST),这是他安装的Novell Open Enterprise Server 2系统的一部分,可用来创建文件转移策略,并根据文件上一次访问的时间来自动转移文件。
Glenn表示,他今年春季花了一星期来调整配置后,他就不管这款软件了,它一直很顺畅地运行,并腾出了至少十几个光纤磁盘的空间。由于减少了活动文件的数量,他还将每日备份时间从原来的14个小时缩短至47分钟。
软件安装起来很简单,配置也只需要把旧的LUN迁移到SATA磁盘上,重新命名该LUN,在光纤磁盘上创建一个比较小的LUN来代替它,并将新的LUN指定为主卷,把旧的LUN指定为镜像卷。Glenn说:“然后,我开始制定迁移规则。”他补充说,DST不需要什么额外成本,不过他估计,由于减少了对磁盘驱动器和电力的需要,他应该省下了约14万美元的费用。