数据仓库技术与档案管理工作浅析

来源 :企业技术开发·中旬刊 | 被引量 : 0次 | 上传用户:enidzhangjuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:随着时代的发展,社会信息需求呈全面增长的态势,档案管理活动中不断增长的电子文件信息,向档案管理活动提出了挑战,而海量数据分散存储与用户要求面向主题集中利用的矛盾,也对档案服务工作提出考验。作为被广泛应用于企业竞争活动中的数据仓库技术的引入,为档案管理活动打开了另一条思路。
  关键词:数据仓库;档案工作;信息化
  中图分类号:TP311     文献标识码:A      文章编号:1006-8937(2015)02-0144-02
  1  数据仓库的概念及档案信息的特点
  随着信息化进程的不断推进,当今人类社会正逐步步入一个以科学技术为主导的知识经济时代。而档案工作作为一种社会现象,伴随着历史车轮的前进,其自身技术手段与管理模式也在不断的更新之中。但这种变化反过来却又无法满足人们对档案信息的科学性、系统性、集中面向主题的现实需求。为此,档案工作可以引入数据仓库技术来解决这一矛盾。
  数据仓库概念最早是由Devlin和Murphy在上世纪八十年代提出的,而数据仓库之父W.H.Inmon在其著作《Building the Data Warehouse》中为数据仓库所下的定义则被人们广为接受。他将数据仓库定义为:“一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程”。由此概念我们可以发现数据仓库的一些重要特性,即面向主题性、数据集成性、数据的时变性、数据的非易失性、数据的集合性与支持决策作用。如果我们将这些特性与档案工作内容相结合,便可得出在数据仓库环境下,档案信息具有的特点:
  ①档案信息内容面向主题,并以某种数据集合的形式存储。在数据仓库中档案信息的存储并非面向某一具体应用程序,而是以主题为归类标准,每一主题面向一个宏观的分析领域,例如:档案工作中不同性质的档案、档案来源所在地、档案流转方式以及档案用户各项具体信息等均可作为主题组织数据,一切以便于有效检索利用为宜。②来源于不同结构和系统的档案信息的数据结构与编码的标准是统一的,并且具有某种程度上的综合。③档案信息中存在保存价值的历史数据具有稳定性。④档案信息随时间推移而不断增长,且数据单元都具有时间标记(时间戳)。⑤对档案信息资源的数据挖掘可以用来预测用户需求,提高档案工作的社会服务能力,推动社会的发展与进步。
  档案信息的这些特点对于档案工作的开展是非常有利的,如果将这种特点具体到档案管理工作的各个环节中去,并结合数据仓库的体系结构,便可大致构造出以下的流程模式如图1所示。
  2  檔案的收集工作
  该步骤对应于数据仓库的源数据部分。从所收集档案信息的来源角度我们可以把源数据分为外部档案信息和内部档案信息两部分。所谓外部档案信息即不为本数据仓库所属机构所操作、拥有、控制的档案信息及其元数据;内部档案信息则与之相反,包括机构内的各种信息以及信息的元数据。从所收集信息的载体形式角度我们则可将源数据划分为纸质文件信息与电子文件信息。为了提高档案的管理、检索、传输与利用效率,大多数具有保存价值的纸质档案,在保证其真实性与完整性的前提下,通常会进行数字化处理,将其转换为电子文件,与纸质档案一同进行双套制保管。档案的收集工作除了要面向历史,反映人类社会原始的历史记录之外,更要以信息主体的需求为本,大力丰富和优化馆藏资源。
  3  档案的整理、鉴定工作
  由于档案信息最初收集到一处时是杂乱状态,需要进一步条理化,有序化,区分具有不同保存价值的档案信息入库保管。在这一过程中,由于档案部门使用的软件型号不一,规格各异,无法相互兼容,致使源数据可能是来自不同的数据库系统和操作系统,在编码、特性、命名规则等方面具有差异性。
  ①需要针对多个数据源,使用合适的技术进行数据抽取。②对于抽取得到的数据进行数据转换。在转换过程中,第一步要对不同数据源的数据进行清理,排除多个系统中抽取出重复档案信息的可能,检查多个数据源之间编码或者压缩格式的矛盾,然后实施数据转化,将抽取到的数据进行标准化,并按主题组合。③将汇总完毕的数据装载到数据仓库之中。在此处,数据装载包括两个层次,第一层是在数据仓库设计和建设完毕的时候使用大量时间将大量数据装载到数据仓库中;第二层是在数据仓库开始工作后,继续收集来自不同信息源的档案信息,并按数据仓库的要求对其进行转化之后追加到数据仓库中。
  4  档案的保管工作
  数据仓库正式运行之后,我们同样面临着传统档案工作档案的保存与管理问题。由于档案信息内容具有不同的保存价值与保密程度,所以需要进行分级管理。这就涉及到数据仓库中的数据分区问题。恰当的数据分区可以提高系统的安全性和稳定性,提高数据仓库各种数据处理功能的效率,使得数据增长和管理的实现变得容易。通常依据档案在数据仓库中的时间特性标准来进行系统层与应用层划分,将不同归档时间、不同保管期限的档案区分开来,利于保管与利用。在数据仓库中,数据被组织为早期细节级、当前细节级、轻度综合级和高度综合级四个级别。源数据最初通过集成进入数据仓库时,处于当前细节级,根据系统需要,再对当前细节级的数据进行轻度或高度的综合,得到的综合级别称为粒度,粒度设计的好坏,则直接影响数据仓库所要存储的数据量以及系统能回答的查询类型,所以,为满足不同层次的需求,数据仓库在组织数据的时候,一般需要根据当前状况进行多粒度级设计。对档案的销毁工作也是档案管理中不得不面对的步骤。对于一些丧失保存利用价值的档案如果继续保存在数据仓库中,不仅占用存储空间,对其的维护工作也是一项相当大的系统开销。为此,数据仓库中的数据,一旦老化(保存年限已经满足档案信息最初进入数据仓库时所预设的年限),便进入早期细节级,系统管理人员可以请相关人士对档案做出鉴定,如有继续保存价值则可存档到一个更低持久性、但更大I/O承受能力的始终可用以进行用户查询的子系统中,如无保存价值,则即刻销毁。
  5  档案的利用工作
  档案的服务利用是档案工作的总目的,充分利用档案信息资源,可以提高政府机关行政效率、提升企业竞争力、增强信息优势、推动社会政治经济科学文化发展。由于档案服务对象的年龄层次不同、智力水平不同、知识结构不同,于是用户对档案信息的需求也不尽相同。这给档案利用服务工作提出了很大的挑战。基于数据仓库的数据挖掘技术、联机分析处理技术(OLAP)、多维数据库管理系统等技术可以改善面向用户的服务质量。通过对数据的分类挖掘和聚类挖掘可以获得隐藏在档案信息中、人们所感兴趣的有用的信息和知识,解决数据过量但可用信息匮乏的矛盾。通过建立基础事实表与维表的范式,可以建立多维空间,通过钻取、卷起、切片。切块与旋转等基本活动让用户可以从不同角度、不同细节程度观察数据,拓宽用户的视野。
  数据仓库技术是在传统的数据库基础上发展起来的,以上仅仅是一些数据仓库知识加诸于档案管理过程中构建的一种简单模式,数据仓库技术在档案管理领域的广泛推展和使用还需要大批的尖端技术人员的开发与相应软硬件系统的配合才能完成。
  参考文献:
  [1] 马费成.信息管理学基础[M].武汉:武汉大学出版社,2008.
  [2] 陈京民.数据仓库原理、设计与应用[M].北京:中国水利水电出版社,2004.
  [3] Paulraj ponniah(美).Data warehousing fundamentals[M].北京:电子工业出版社,2004.
  [4] 教育部考试中心.数据库工程师[M].北京:高等教育出版社,2007.
  [5] 冯惠玲,张辑哲.档案学概论[M].北京:中国人民大学出版社,2006.
其他文献
CD3AK细胞和小量rIL-2联合腹腔内注射,治疗24例癌性腹水患者。结果表明CD3AK细胞的临床安全可行病人在治疗期间一般状况改善2,生存质量提高。
漠滨金矿为一贫硫化物石英脉型金矿。本文着重阐述了具代表意义的Ⅱ-脉的地质特征;通过对矿物包裹体的系统研究及氢、氧、硫、铅等的同位素研究,探讨了成矿热液的来源和运移
我们对1996年5月~1997年10月窒息住院的83例新生儿及72例正常新生儿进行血清电解质和窒息程度关系的研究,结果如下。1对象与方法83例窒息患儿,男59例,女24例。日龄平均1.5d,最小10h,最大3d。体重平均3150g,胎龄平均39周,最..
目的探讨给予局部晚期食管癌患者多西他赛化疗联合三维适形放疗同步治疗的疗效。方法选取局部晚期食管癌患者40例,给予患者多西他赛化疗联合三维适形放疗同步治疗,观察治疗后
文章主要结合具体的实例,探讨一种适应新烟尘排放标准的电除尘集成技术,突出在整个电除尘集成技术运用中的改造技术,实现电除尘器的减排提效功能。
随着现代医学科学技术的进步,临床输血已由输注全血发展到成分输血。成分输血率的高低,不仅反映出医务人员的技术水平,也是衡量一个国家、地区、医疗单位医疗管理水平高低的重要
2006年12月25日《商业研究》杂志社在北京召开了在京编委工作会议。《商业研究》本届编委会共有22人组成,其中在京有13人,占本刊编委会共有22人组成,其中在京有13人,占本编委的55
通过对文山城区及其附近9所中小学的抽样调查和统计分析,论述了在汉、壮、苗和其他民族杂居的条件下,各民族学生家长对其子女学习的关心情况,并指出了各民族家长在对待男女生
该研究观察到18月龄老年大鼠尾腱胶原纤维热收缩起始温度及胶原蛋白沉积量均显著高于5月龄青年大鼠,P〈0.01;老年大鼠可溶性胶原蛋白含呈下降趋势,灌胃给药30d,老年大鼠补肾延年丹大剂量组,中