论文部分内容阅读
【摘要】 随着运营商的网路的发展,数据大部分存储在不同的区域网络,所以数据管理系统将面临数据的存取效率以及确保取得的数据内容一致的问题。针对数据分散存储与数据存取的问题,本论文提出一个通过阶层式逻辑数据索引与快取的设计建立在分布式数据管理系统中的数据存取机制,在现有网络带宽与架构下,提供更有效率的数据传输与数据管理。
【关键词】 分布式数据存取 阶层式索引 分散存储
引言:
现今数据管理系统的数据大部分存储在不同的区域网络,且数据存放越来越分散,如何做到有效率的管理十分重要。对于此种情况,使用者取数据的存取效率以及使用者取得的数据内容一致的问题变得更繁琐。
以上所面临的问题可分为:1.数据内容一致性问题:由于数据内容可能不断持续在更新,即使采用异地备份或数据复制机制,数据的同步仍须配合复杂的算法才能达成;2.数据存取效率问题:使用者必须从远端下载文件至本端,如果有多线程同时下载文件,将会导致原本的网络带宽不敷使用。没有效率的数据存取机制将会用尽所有网络带宽,甚至影响到正在运作的其他系统。任由使用者在服务器间传输大量数据,对运营商来说是一个无形的成本支出。
我们将重点放在如何快速有效率的取得远端数据,寻求更好更佳的解决办法,在不改变现在低效能的网络带宽与架构下,系统能自动适应使用者位置,自动调整数据存取位置的分布式数据管理系统,希望能满足运营商所需的数据集中管理、分散存储的需求。
一、适应性数据存取机制
本论文主要在不改变运营商现有的网络架构与带宽的情况下,大量提升数据管理与存取效率,提供运营商完整的数据管理解决方案。此方法的重点在于设计通过集中管理的知识地图,提供使用者一个一致性的存取界面,通过这个界面,使用者可以从任何地方进行数据存取的动作,而做到数据集中管理、分散存储的管理机制。另一重点则是实体文件分散存储,系统必须能自动适应使用者所在位置,并且动态的调整回复实体文件的文件服务器。
通过快取机制(Cache)的设计、多层逻辑文件索引等使用者适应性机制的建立,所有的使用者将只通过本地端的文件服务器存取文件,如此可让99%以上的数据存取效率与本地数据存取效率几乎一样快。各个客户端的文件树通过中间层的分布式文件服务器(Distributed File Server),对应至各个不同地区存储器的实体文件。黄色部分为文件服务器之间互相快取(Cache)的实体文件。
此系统的软件架构如图2所示,整个适应性分布式数据存取系统大致上可以分为两个主要子系统,分别为DMS服务器(Document Management System)以及DMS文件服务器。一个DMS可以连接多个DMS文件服务器,每DMS文件服务器也会借由内部的Cache Policy模块连接到其他 DMS文件服务器或通过索引分割树(Index Partitioner)来与下一阶层的DMS文件服务器互动。以下将描述本架构的内部设计。
1.1 DMS服务器
DMS服务器主要负责接收所有的使用者的请求。对于Metadata的相关请求,则于DMS服务器直接回应,如果是对于远端文件的上传或下载请求,则会通过Adaptive File Server Locator 模块的判断,将该请求送到对应的DMS文件服务器。DMS服务器主要由Global Document Index、Adaptive File Server Locator、GlobelIndex Partitioiner 、Metadata Manager 、File Server Manager以及Authentication/Authorization 模块组成。以下概述2个核心模块的主要功能。
1.2 Global Index Partitioner
此模塊的主要功能是将运营商内的单一知识地图切成许多个子地图,分别由一个DMS文件服务器来负责存储。图2-3可以清楚描述设计该模块的主要目的。树状结构即是运营商内部完整的知识文件地图。FS1~FS4各代表不同文件关系树,整个完整的文件树可以被切分为三个主要Partition,而每一个Partition分别为文件服务器FS1, FS2与FS3负责。其中FS4为FS2的下游文件服务器。此外,系统也可以再将 FS2的其中一个文件交由FS4管理。如此,通过 FS2 与FS4的委托关系,便可建构出阶层式的文件服务器软件架构。
1.3 Cache Policy 模块
Cache Policy 模块负责管理当地使用者存取文件时,发生Cache miss的文件实体文件。目前我们规划的Cache Policy如下:
1.3.1Cache in policy
我们预计将文件快取的模式分为以下三种:要求模式(On-Demand)、定期模式(Periodical)以及手动模式(Manual)。要求模式是指当使用者有文件下载,但发生 Cache miss时,立刻启动快取机制(Cache),将文件从远端的DMS文件服务器快取到目前的DMS文件服务器。定期模式则是每天固定时间将其他 DMS文件服务器的文件快取到目前的DMS文件服务器。手动模式则是管理者随时可以决定要快取那个文件到DMS文件服务器中,可以提供临时的数据传输需求。至于系统将采用哪种模式的Cache策略则由管理者自行决定。
1.3.2 Cache out policy
我们将根据管理者设定的Cache Size,在Cache Size 剩下不到管理者设定的threshold时,于半夜启动Cache out机制。而Cache out的算法则采用LRU (Least Recently Used)的方式,将最少用到的快取文件清除。 1.Data Transmission。此模块主要负责文件的传输,需要特别獨立此模块是因为部分产业的文件Size非常大,需要特别管理上传的文件格式、以及传输时间。尤其当通过Web的方式上传、下载文件时,常会发生暂停(timeout)的问题,必须通过数据传送(Data transmission)模块专责处理相关问题。
2.Index Bridge。此模块负责将逻辑的文件索引,对应到实际的文件存储位置。例如可以将DMS服务器的\root\SOP\请假标准程序,对应到DMS文件服务器FS1的\SOP\请假标准程序,再对应到FS1的d:\00000001\00000002.doc。或当FS1 后端的文件系统是NFS时,则必须对应到/user/home/files_server/001/003.doc。通过这个模块的构建,我们可以将实体文件存储的文件系统以及存储空间做很好的分离切割。如此才能连接到运营商既有的所有大型的存储空间。
二、 效果分析
我们通过一般网络传输速度来分析所提出的算法。假设有两个文件服务器分别架设于A地与A地两地,其网络架构是双向512K,本地端的内部网络速度为100MByte/sec。以下分别分析有无使用适应性数据存取机制的数据存取状况,其中A代表文件在网络上的传输时间、B代表文件存储时间、C代表使用者端文件开启时间。
表1为一般网络文件下载情况,表2为有适应性数据存取机制的数据存取分析且DMS服务器位于中国,那么数据传输的时间如表(以10M文件大小计算),精确的时间尚须视使用者的机器设备能力而定。
以上计算方式均以理论值的最大极限计算,不考虑平时网络被其他应用系统或数据传输所占据带宽的情况。在使用适应性数据存取机制的情况下,使用者如下载为非文件服务器所拥有的文件或非Cache文件则只须花费一次远端下载时间,之后其他使用者只须花费本地端下载时间,由结果得知,此作法大大减少多端点与不同网域文件下载时间。
三、结束语
目前运营商多属地域公司,运营商最重要的智慧资产就是数据,往往会因为数据维护单位的设立地点不同而导致数据散落在各个地区,此外中国信息部门对于关连式数据库的技术依赖性太高,导致有很多新的系统功能无法被快速开发,多层次的逻辑文件索引,以及适应文件服务器的Cache即是最好的解决办法。
本论文设计的适应性的分布式数据存取系统,提供自动化的适应能力,根据使用者来源,调整数据回复的文件服务器,以及设计逻辑文件索引与 Cache来加强数据存取的效能,希望能有助于建构适用于目前运营商网络架构与带宽的高效能分布式数据管理系统。
参 考 文 献
[1]王意洁,孙伟东,周松,等. 云计算环境下的分布存储关键技术[J]. 软件学报,2012,(4):962-986.doi:10.3724/SP.J.1001.2012.04175.
[2]覃雄派,王会举,李芙蓉,等. 数据管理技术的新格局[J]. 软件学报,2013,(2):175-197.
[3]叶小平,汤庸,林衍崇,等. 时态数据索引TDindex研究与应用[J]. 中国科学(信息科学),2015,(8):1025-1045
[4]叶小平,汤庸,林衍崇,等. 时态拟序数据结构研究及应用?[J]. 软件学报,2014,(11):2587-2601.
[5]刘玲玲. 分布式大数据云存储技术分析[J]. 数码设计(上),2018,(6):169.
[6]周西柳. 面向大数据的分布式存储技术研究[J]. 电脑迷,2016,(3):136-136.
[7]刘圆,王峰,杨明川. 面向大数据的分布式存储技术研究[J]. 电信技术,2015,(6):33-36.
[8]姚迎乐,张志华. 面向大数据的并行数据分布式备份存储仿真[J]. 计算机仿真,2018,35(8):401-404,409.
[9]胡健,袁军,王远. 面向电网大数据的分布式实时数据库管理系统[J]. 电力信息与通信技术,2015,13(2):49-54.
【关键词】 分布式数据存取 阶层式索引 分散存储
引言:
现今数据管理系统的数据大部分存储在不同的区域网络,且数据存放越来越分散,如何做到有效率的管理十分重要。对于此种情况,使用者取数据的存取效率以及使用者取得的数据内容一致的问题变得更繁琐。
以上所面临的问题可分为:1.数据内容一致性问题:由于数据内容可能不断持续在更新,即使采用异地备份或数据复制机制,数据的同步仍须配合复杂的算法才能达成;2.数据存取效率问题:使用者必须从远端下载文件至本端,如果有多线程同时下载文件,将会导致原本的网络带宽不敷使用。没有效率的数据存取机制将会用尽所有网络带宽,甚至影响到正在运作的其他系统。任由使用者在服务器间传输大量数据,对运营商来说是一个无形的成本支出。
我们将重点放在如何快速有效率的取得远端数据,寻求更好更佳的解决办法,在不改变现在低效能的网络带宽与架构下,系统能自动适应使用者位置,自动调整数据存取位置的分布式数据管理系统,希望能满足运营商所需的数据集中管理、分散存储的需求。
一、适应性数据存取机制
本论文主要在不改变运营商现有的网络架构与带宽的情况下,大量提升数据管理与存取效率,提供运营商完整的数据管理解决方案。此方法的重点在于设计通过集中管理的知识地图,提供使用者一个一致性的存取界面,通过这个界面,使用者可以从任何地方进行数据存取的动作,而做到数据集中管理、分散存储的管理机制。另一重点则是实体文件分散存储,系统必须能自动适应使用者所在位置,并且动态的调整回复实体文件的文件服务器。
通过快取机制(Cache)的设计、多层逻辑文件索引等使用者适应性机制的建立,所有的使用者将只通过本地端的文件服务器存取文件,如此可让99%以上的数据存取效率与本地数据存取效率几乎一样快。各个客户端的文件树通过中间层的分布式文件服务器(Distributed File Server),对应至各个不同地区存储器的实体文件。黄色部分为文件服务器之间互相快取(Cache)的实体文件。
此系统的软件架构如图2所示,整个适应性分布式数据存取系统大致上可以分为两个主要子系统,分别为DMS服务器(Document Management System)以及DMS文件服务器。一个DMS可以连接多个DMS文件服务器,每DMS文件服务器也会借由内部的Cache Policy模块连接到其他 DMS文件服务器或通过索引分割树(Index Partitioner)来与下一阶层的DMS文件服务器互动。以下将描述本架构的内部设计。
1.1 DMS服务器
DMS服务器主要负责接收所有的使用者的请求。对于Metadata的相关请求,则于DMS服务器直接回应,如果是对于远端文件的上传或下载请求,则会通过Adaptive File Server Locator 模块的判断,将该请求送到对应的DMS文件服务器。DMS服务器主要由Global Document Index、Adaptive File Server Locator、GlobelIndex Partitioiner 、Metadata Manager 、File Server Manager以及Authentication/Authorization 模块组成。以下概述2个核心模块的主要功能。
1.2 Global Index Partitioner
此模塊的主要功能是将运营商内的单一知识地图切成许多个子地图,分别由一个DMS文件服务器来负责存储。图2-3可以清楚描述设计该模块的主要目的。树状结构即是运营商内部完整的知识文件地图。FS1~FS4各代表不同文件关系树,整个完整的文件树可以被切分为三个主要Partition,而每一个Partition分别为文件服务器FS1, FS2与FS3负责。其中FS4为FS2的下游文件服务器。此外,系统也可以再将 FS2的其中一个文件交由FS4管理。如此,通过 FS2 与FS4的委托关系,便可建构出阶层式的文件服务器软件架构。
1.3 Cache Policy 模块
Cache Policy 模块负责管理当地使用者存取文件时,发生Cache miss的文件实体文件。目前我们规划的Cache Policy如下:
1.3.1Cache in policy
我们预计将文件快取的模式分为以下三种:要求模式(On-Demand)、定期模式(Periodical)以及手动模式(Manual)。要求模式是指当使用者有文件下载,但发生 Cache miss时,立刻启动快取机制(Cache),将文件从远端的DMS文件服务器快取到目前的DMS文件服务器。定期模式则是每天固定时间将其他 DMS文件服务器的文件快取到目前的DMS文件服务器。手动模式则是管理者随时可以决定要快取那个文件到DMS文件服务器中,可以提供临时的数据传输需求。至于系统将采用哪种模式的Cache策略则由管理者自行决定。
1.3.2 Cache out policy
我们将根据管理者设定的Cache Size,在Cache Size 剩下不到管理者设定的threshold时,于半夜启动Cache out机制。而Cache out的算法则采用LRU (Least Recently Used)的方式,将最少用到的快取文件清除。 1.Data Transmission。此模块主要负责文件的传输,需要特别獨立此模块是因为部分产业的文件Size非常大,需要特别管理上传的文件格式、以及传输时间。尤其当通过Web的方式上传、下载文件时,常会发生暂停(timeout)的问题,必须通过数据传送(Data transmission)模块专责处理相关问题。
2.Index Bridge。此模块负责将逻辑的文件索引,对应到实际的文件存储位置。例如可以将DMS服务器的\root\SOP\请假标准程序,对应到DMS文件服务器FS1的\SOP\请假标准程序,再对应到FS1的d:\00000001\00000002.doc。或当FS1 后端的文件系统是NFS时,则必须对应到/user/home/files_server/001/003.doc。通过这个模块的构建,我们可以将实体文件存储的文件系统以及存储空间做很好的分离切割。如此才能连接到运营商既有的所有大型的存储空间。
二、 效果分析
我们通过一般网络传输速度来分析所提出的算法。假设有两个文件服务器分别架设于A地与A地两地,其网络架构是双向512K,本地端的内部网络速度为100MByte/sec。以下分别分析有无使用适应性数据存取机制的数据存取状况,其中A代表文件在网络上的传输时间、B代表文件存储时间、C代表使用者端文件开启时间。
表1为一般网络文件下载情况,表2为有适应性数据存取机制的数据存取分析且DMS服务器位于中国,那么数据传输的时间如表(以10M文件大小计算),精确的时间尚须视使用者的机器设备能力而定。
以上计算方式均以理论值的最大极限计算,不考虑平时网络被其他应用系统或数据传输所占据带宽的情况。在使用适应性数据存取机制的情况下,使用者如下载为非文件服务器所拥有的文件或非Cache文件则只须花费一次远端下载时间,之后其他使用者只须花费本地端下载时间,由结果得知,此作法大大减少多端点与不同网域文件下载时间。
三、结束语
目前运营商多属地域公司,运营商最重要的智慧资产就是数据,往往会因为数据维护单位的设立地点不同而导致数据散落在各个地区,此外中国信息部门对于关连式数据库的技术依赖性太高,导致有很多新的系统功能无法被快速开发,多层次的逻辑文件索引,以及适应文件服务器的Cache即是最好的解决办法。
本论文设计的适应性的分布式数据存取系统,提供自动化的适应能力,根据使用者来源,调整数据回复的文件服务器,以及设计逻辑文件索引与 Cache来加强数据存取的效能,希望能有助于建构适用于目前运营商网络架构与带宽的高效能分布式数据管理系统。
参 考 文 献
[1]王意洁,孙伟东,周松,等. 云计算环境下的分布存储关键技术[J]. 软件学报,2012,(4):962-986.doi:10.3724/SP.J.1001.2012.04175.
[2]覃雄派,王会举,李芙蓉,等. 数据管理技术的新格局[J]. 软件学报,2013,(2):175-197.
[3]叶小平,汤庸,林衍崇,等. 时态数据索引TDindex研究与应用[J]. 中国科学(信息科学),2015,(8):1025-1045
[4]叶小平,汤庸,林衍崇,等. 时态拟序数据结构研究及应用?[J]. 软件学报,2014,(11):2587-2601.
[5]刘玲玲. 分布式大数据云存储技术分析[J]. 数码设计(上),2018,(6):169.
[6]周西柳. 面向大数据的分布式存储技术研究[J]. 电脑迷,2016,(3):136-136.
[7]刘圆,王峰,杨明川. 面向大数据的分布式存储技术研究[J]. 电信技术,2015,(6):33-36.
[8]姚迎乐,张志华. 面向大数据的并行数据分布式备份存储仿真[J]. 计算机仿真,2018,35(8):401-404,409.
[9]胡健,袁军,王远. 面向电网大数据的分布式实时数据库管理系统[J]. 电力信息与通信技术,2015,13(2):49-54.