论文部分内容阅读
摘 要:随着时代的发展,社会信息需求呈全面增长的态势,档案管理活动中不断增长的电子文件信息,向档案管理活动提出了挑战,而海量数据分散存储与用户要求面向主题集中利用的矛盾,也对档案服务工作提出考验。作为被广泛应用于企业竞争活动中的数据仓库技术的引入,为档案管理活动打开了另一条思路。
关键词:数据仓库;档案工作;信息化
中图分类号:TP311 文献标识码:A 文章编号:1006-8937(2015)02-0144-02
1 数据仓库的概念及档案信息的特点
随着信息化进程的不断推进,当今人类社会正逐步步入一个以科学技术为主导的知识经济时代。而档案工作作为一种社会现象,伴随着历史车轮的前进,其自身技术手段与管理模式也在不断的更新之中。但这种变化反过来却又无法满足人们对档案信息的科学性、系统性、集中面向主题的现实需求。为此,档案工作可以引入数据仓库技术来解决这一矛盾。
数据仓库概念最早是由Devlin和Murphy在上世纪八十年代提出的,而数据仓库之父W.H.Inmon在其著作《Building the Data Warehouse》中为数据仓库所下的定义则被人们广为接受。他将数据仓库定义为:“一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程”。由此概念我们可以发现数据仓库的一些重要特性,即面向主题性、数据集成性、数据的时变性、数据的非易失性、数据的集合性与支持决策作用。如果我们将这些特性与档案工作内容相结合,便可得出在数据仓库环境下,档案信息具有的特点:
①档案信息内容面向主题,并以某种数据集合的形式存储。在数据仓库中档案信息的存储并非面向某一具体应用程序,而是以主题为归类标准,每一主题面向一个宏观的分析领域,例如:档案工作中不同性质的档案、档案来源所在地、档案流转方式以及档案用户各项具体信息等均可作为主题组织数据,一切以便于有效检索利用为宜。②来源于不同结构和系统的档案信息的数据结构与编码的标准是统一的,并且具有某种程度上的综合。③档案信息中存在保存价值的历史数据具有稳定性。④档案信息随时间推移而不断增长,且数据单元都具有时间标记(时间戳)。⑤对档案信息资源的数据挖掘可以用来预测用户需求,提高档案工作的社会服务能力,推动社会的发展与进步。
档案信息的这些特点对于档案工作的开展是非常有利的,如果将这种特点具体到档案管理工作的各个环节中去,并结合数据仓库的体系结构,便可大致构造出以下的流程模式如图1所示。
2 檔案的收集工作
该步骤对应于数据仓库的源数据部分。从所收集档案信息的来源角度我们可以把源数据分为外部档案信息和内部档案信息两部分。所谓外部档案信息即不为本数据仓库所属机构所操作、拥有、控制的档案信息及其元数据;内部档案信息则与之相反,包括机构内的各种信息以及信息的元数据。从所收集信息的载体形式角度我们则可将源数据划分为纸质文件信息与电子文件信息。为了提高档案的管理、检索、传输与利用效率,大多数具有保存价值的纸质档案,在保证其真实性与完整性的前提下,通常会进行数字化处理,将其转换为电子文件,与纸质档案一同进行双套制保管。档案的收集工作除了要面向历史,反映人类社会原始的历史记录之外,更要以信息主体的需求为本,大力丰富和优化馆藏资源。
3 档案的整理、鉴定工作
由于档案信息最初收集到一处时是杂乱状态,需要进一步条理化,有序化,区分具有不同保存价值的档案信息入库保管。在这一过程中,由于档案部门使用的软件型号不一,规格各异,无法相互兼容,致使源数据可能是来自不同的数据库系统和操作系统,在编码、特性、命名规则等方面具有差异性。
①需要针对多个数据源,使用合适的技术进行数据抽取。②对于抽取得到的数据进行数据转换。在转换过程中,第一步要对不同数据源的数据进行清理,排除多个系统中抽取出重复档案信息的可能,检查多个数据源之间编码或者压缩格式的矛盾,然后实施数据转化,将抽取到的数据进行标准化,并按主题组合。③将汇总完毕的数据装载到数据仓库之中。在此处,数据装载包括两个层次,第一层是在数据仓库设计和建设完毕的时候使用大量时间将大量数据装载到数据仓库中;第二层是在数据仓库开始工作后,继续收集来自不同信息源的档案信息,并按数据仓库的要求对其进行转化之后追加到数据仓库中。
4 档案的保管工作
数据仓库正式运行之后,我们同样面临着传统档案工作档案的保存与管理问题。由于档案信息内容具有不同的保存价值与保密程度,所以需要进行分级管理。这就涉及到数据仓库中的数据分区问题。恰当的数据分区可以提高系统的安全性和稳定性,提高数据仓库各种数据处理功能的效率,使得数据增长和管理的实现变得容易。通常依据档案在数据仓库中的时间特性标准来进行系统层与应用层划分,将不同归档时间、不同保管期限的档案区分开来,利于保管与利用。在数据仓库中,数据被组织为早期细节级、当前细节级、轻度综合级和高度综合级四个级别。源数据最初通过集成进入数据仓库时,处于当前细节级,根据系统需要,再对当前细节级的数据进行轻度或高度的综合,得到的综合级别称为粒度,粒度设计的好坏,则直接影响数据仓库所要存储的数据量以及系统能回答的查询类型,所以,为满足不同层次的需求,数据仓库在组织数据的时候,一般需要根据当前状况进行多粒度级设计。对档案的销毁工作也是档案管理中不得不面对的步骤。对于一些丧失保存利用价值的档案如果继续保存在数据仓库中,不仅占用存储空间,对其的维护工作也是一项相当大的系统开销。为此,数据仓库中的数据,一旦老化(保存年限已经满足档案信息最初进入数据仓库时所预设的年限),便进入早期细节级,系统管理人员可以请相关人士对档案做出鉴定,如有继续保存价值则可存档到一个更低持久性、但更大I/O承受能力的始终可用以进行用户查询的子系统中,如无保存价值,则即刻销毁。
5 档案的利用工作
档案的服务利用是档案工作的总目的,充分利用档案信息资源,可以提高政府机关行政效率、提升企业竞争力、增强信息优势、推动社会政治经济科学文化发展。由于档案服务对象的年龄层次不同、智力水平不同、知识结构不同,于是用户对档案信息的需求也不尽相同。这给档案利用服务工作提出了很大的挑战。基于数据仓库的数据挖掘技术、联机分析处理技术(OLAP)、多维数据库管理系统等技术可以改善面向用户的服务质量。通过对数据的分类挖掘和聚类挖掘可以获得隐藏在档案信息中、人们所感兴趣的有用的信息和知识,解决数据过量但可用信息匮乏的矛盾。通过建立基础事实表与维表的范式,可以建立多维空间,通过钻取、卷起、切片。切块与旋转等基本活动让用户可以从不同角度、不同细节程度观察数据,拓宽用户的视野。
数据仓库技术是在传统的数据库基础上发展起来的,以上仅仅是一些数据仓库知识加诸于档案管理过程中构建的一种简单模式,数据仓库技术在档案管理领域的广泛推展和使用还需要大批的尖端技术人员的开发与相应软硬件系统的配合才能完成。
参考文献:
[1] 马费成.信息管理学基础[M].武汉:武汉大学出版社,2008.
[2] 陈京民.数据仓库原理、设计与应用[M].北京:中国水利水电出版社,2004.
[3] Paulraj ponniah(美).Data warehousing fundamentals[M].北京:电子工业出版社,2004.
[4] 教育部考试中心.数据库工程师[M].北京:高等教育出版社,2007.
[5] 冯惠玲,张辑哲.档案学概论[M].北京:中国人民大学出版社,2006.
关键词:数据仓库;档案工作;信息化
中图分类号:TP311 文献标识码:A 文章编号:1006-8937(2015)02-0144-02
1 数据仓库的概念及档案信息的特点
随着信息化进程的不断推进,当今人类社会正逐步步入一个以科学技术为主导的知识经济时代。而档案工作作为一种社会现象,伴随着历史车轮的前进,其自身技术手段与管理模式也在不断的更新之中。但这种变化反过来却又无法满足人们对档案信息的科学性、系统性、集中面向主题的现实需求。为此,档案工作可以引入数据仓库技术来解决这一矛盾。
数据仓库概念最早是由Devlin和Murphy在上世纪八十年代提出的,而数据仓库之父W.H.Inmon在其著作《Building the Data Warehouse》中为数据仓库所下的定义则被人们广为接受。他将数据仓库定义为:“一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程”。由此概念我们可以发现数据仓库的一些重要特性,即面向主题性、数据集成性、数据的时变性、数据的非易失性、数据的集合性与支持决策作用。如果我们将这些特性与档案工作内容相结合,便可得出在数据仓库环境下,档案信息具有的特点:
①档案信息内容面向主题,并以某种数据集合的形式存储。在数据仓库中档案信息的存储并非面向某一具体应用程序,而是以主题为归类标准,每一主题面向一个宏观的分析领域,例如:档案工作中不同性质的档案、档案来源所在地、档案流转方式以及档案用户各项具体信息等均可作为主题组织数据,一切以便于有效检索利用为宜。②来源于不同结构和系统的档案信息的数据结构与编码的标准是统一的,并且具有某种程度上的综合。③档案信息中存在保存价值的历史数据具有稳定性。④档案信息随时间推移而不断增长,且数据单元都具有时间标记(时间戳)。⑤对档案信息资源的数据挖掘可以用来预测用户需求,提高档案工作的社会服务能力,推动社会的发展与进步。
档案信息的这些特点对于档案工作的开展是非常有利的,如果将这种特点具体到档案管理工作的各个环节中去,并结合数据仓库的体系结构,便可大致构造出以下的流程模式如图1所示。
2 檔案的收集工作
该步骤对应于数据仓库的源数据部分。从所收集档案信息的来源角度我们可以把源数据分为外部档案信息和内部档案信息两部分。所谓外部档案信息即不为本数据仓库所属机构所操作、拥有、控制的档案信息及其元数据;内部档案信息则与之相反,包括机构内的各种信息以及信息的元数据。从所收集信息的载体形式角度我们则可将源数据划分为纸质文件信息与电子文件信息。为了提高档案的管理、检索、传输与利用效率,大多数具有保存价值的纸质档案,在保证其真实性与完整性的前提下,通常会进行数字化处理,将其转换为电子文件,与纸质档案一同进行双套制保管。档案的收集工作除了要面向历史,反映人类社会原始的历史记录之外,更要以信息主体的需求为本,大力丰富和优化馆藏资源。
3 档案的整理、鉴定工作
由于档案信息最初收集到一处时是杂乱状态,需要进一步条理化,有序化,区分具有不同保存价值的档案信息入库保管。在这一过程中,由于档案部门使用的软件型号不一,规格各异,无法相互兼容,致使源数据可能是来自不同的数据库系统和操作系统,在编码、特性、命名规则等方面具有差异性。
①需要针对多个数据源,使用合适的技术进行数据抽取。②对于抽取得到的数据进行数据转换。在转换过程中,第一步要对不同数据源的数据进行清理,排除多个系统中抽取出重复档案信息的可能,检查多个数据源之间编码或者压缩格式的矛盾,然后实施数据转化,将抽取到的数据进行标准化,并按主题组合。③将汇总完毕的数据装载到数据仓库之中。在此处,数据装载包括两个层次,第一层是在数据仓库设计和建设完毕的时候使用大量时间将大量数据装载到数据仓库中;第二层是在数据仓库开始工作后,继续收集来自不同信息源的档案信息,并按数据仓库的要求对其进行转化之后追加到数据仓库中。
4 档案的保管工作
数据仓库正式运行之后,我们同样面临着传统档案工作档案的保存与管理问题。由于档案信息内容具有不同的保存价值与保密程度,所以需要进行分级管理。这就涉及到数据仓库中的数据分区问题。恰当的数据分区可以提高系统的安全性和稳定性,提高数据仓库各种数据处理功能的效率,使得数据增长和管理的实现变得容易。通常依据档案在数据仓库中的时间特性标准来进行系统层与应用层划分,将不同归档时间、不同保管期限的档案区分开来,利于保管与利用。在数据仓库中,数据被组织为早期细节级、当前细节级、轻度综合级和高度综合级四个级别。源数据最初通过集成进入数据仓库时,处于当前细节级,根据系统需要,再对当前细节级的数据进行轻度或高度的综合,得到的综合级别称为粒度,粒度设计的好坏,则直接影响数据仓库所要存储的数据量以及系统能回答的查询类型,所以,为满足不同层次的需求,数据仓库在组织数据的时候,一般需要根据当前状况进行多粒度级设计。对档案的销毁工作也是档案管理中不得不面对的步骤。对于一些丧失保存利用价值的档案如果继续保存在数据仓库中,不仅占用存储空间,对其的维护工作也是一项相当大的系统开销。为此,数据仓库中的数据,一旦老化(保存年限已经满足档案信息最初进入数据仓库时所预设的年限),便进入早期细节级,系统管理人员可以请相关人士对档案做出鉴定,如有继续保存价值则可存档到一个更低持久性、但更大I/O承受能力的始终可用以进行用户查询的子系统中,如无保存价值,则即刻销毁。
5 档案的利用工作
档案的服务利用是档案工作的总目的,充分利用档案信息资源,可以提高政府机关行政效率、提升企业竞争力、增强信息优势、推动社会政治经济科学文化发展。由于档案服务对象的年龄层次不同、智力水平不同、知识结构不同,于是用户对档案信息的需求也不尽相同。这给档案利用服务工作提出了很大的挑战。基于数据仓库的数据挖掘技术、联机分析处理技术(OLAP)、多维数据库管理系统等技术可以改善面向用户的服务质量。通过对数据的分类挖掘和聚类挖掘可以获得隐藏在档案信息中、人们所感兴趣的有用的信息和知识,解决数据过量但可用信息匮乏的矛盾。通过建立基础事实表与维表的范式,可以建立多维空间,通过钻取、卷起、切片。切块与旋转等基本活动让用户可以从不同角度、不同细节程度观察数据,拓宽用户的视野。
数据仓库技术是在传统的数据库基础上发展起来的,以上仅仅是一些数据仓库知识加诸于档案管理过程中构建的一种简单模式,数据仓库技术在档案管理领域的广泛推展和使用还需要大批的尖端技术人员的开发与相应软硬件系统的配合才能完成。
参考文献:
[1] 马费成.信息管理学基础[M].武汉:武汉大学出版社,2008.
[2] 陈京民.数据仓库原理、设计与应用[M].北京:中国水利水电出版社,2004.
[3] Paulraj ponniah(美).Data warehousing fundamentals[M].北京:电子工业出版社,2004.
[4] 教育部考试中心.数据库工程师[M].北京:高等教育出版社,2007.
[5] 冯惠玲,张辑哲.档案学概论[M].北京:中国人民大学出版社,2006.