大数据背景下档案信息服务体系构建方法探析

来源 :档案与建设 | 被引量 : 0次 | 上传用户:lycwmy01011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:不断开发创新当前的档案信息资源共享平台,提升其数据处理能力,方能满足庞大的档案信息资源需求。文章从必要性方面对构建档案信息服务体系进行了论述,并提出大数据背景下应该更多地采用多源异构档案数据整合法,通过构建档案信息服务体系,优化设计相关的方案。
  关键词:多源异构;档案信息;服务体系;构建;优化
  大数据是指互联网、物联网等现代网络渠道在日常运营中生成、累积和广泛收集产生的海量数据。而大数据时代是指在大数据的基础上对信息进行存储、提炼、智能处理和展示的信息爆炸时代[1]。大数据时代随着新用户的增多,加之信息资源使用频率提升,档案信息资源数据也呈指数级增长。对大规模档案信息资源进行精确分析、有效管理、安全利用等,对于档案管理部门是一大挑战。以大数据来推动企业创新业务,实现档案融合,构建新型档案信息服务体系[2],达到智能化体系的发展階段,实现安全性和快捷性,这也是当前急需解决的问题。

一、构建档案信息服务体系的必要性


  1. 档案信息服务需求增多
  构建档案信息服务体系,必须遵循“亲民、公正”原则,更新服务理念,变革服务形式,从而提升档案信息服务的用户体验。在大数据时代,提升档案信息服务的质量和水平日渐成为档案利用者迫切需求,档案部门必须转变服务理念,坚持用户为中心。档案馆作为信息储存的公共机构,一方面要提升硬件设施,另一方面要加强专业化人才的培训,从而在档案信息服务方面由提供信息向提供知识转变。随着大数据时代的发展,馆藏资源更多地以服务大众为出发点,要在新的社会背景下充分发挥出其原本价值,必须由被动服务转向主动服务。不仅要提升信息服务质量,还要提高服务效率,档案部门可以利用电视、网络等各种渠道将公开信息公布给社会,以供公众了解和使用。
  2. 档案数据的多源异构特征
  公众对于档案信息的个性化需求改变了信息获取方式,但原始的档案数据收集工作还停留在纸质文档和部分电子文档的汇编和转存阶段。随着大数据应用,大量的多媒体异构档案数据应运而生。主要的数据来源如下:
  一是物联网盛行下的电邮数据、社交数据。其以文本居多,是重要的非结构化数据。这些电邮和社交数据是档案数据的重要来源[3],具有重要的参考价值,但如何有效利用这些新型媒体数据将是档案信息化过程中的一个难题。
  二是在大数据基础上产生的决策数据、统计报表。早期的档案数据量有限,数据类型单一,普通的信息管理系统完全可以处理。随着大数据盛行,档案数据量呈指数级增长,大数据中蕴含了大量有价值的决策数据和统计报表,当企业需要进行重要决策时,这些数据都是重要的参考。因此有效利用和融合这些决策数据和统计报表对企业构建决策支持系统具有重要意义。
  三是实现电子政务后出现的气象环境、社会保障、食品安全等民生信息资源。随着电子政务的发展,产生了一系列形式多样的信息资源,这些信息资源涉及气象、社保、食品等方方面面。这类民生数据资源对社会发展、提升民生事业的信息化水平具有重要的参考价值。
  四是电商环境发展下产生的物流数据、订单数据等。随着电商事业蓬勃发展,如京东、淘宝、亚马逊等电商平台的盛行,产生了大量用户交互数据、物流数据以及订单数据等。这些电商数据为档案管理和档案研究提供了丰富的数据资源,保障了档案数据的智能化与个性化分析。
  档案数据从不同维度出发可以有不同的分类形式:从文件格式上进行划分,可以分为图像、视频、音频、图形和文本等;从数据形式上进行划分,可以分为Web服务数据、关系型数据、数据包数据、接口数据等。这些不同格式、不同系统、不同来源的档案数据从不同角度、不同粒度提供了大量可靠有用的信息,但目前最重要的是对信息进行有效利用,提高管理档案信息的水平,这是构建一个功能完善、高效易用的档案信息服务体系必须首要解决的底层问题。公众要想公正地获取资源,需要加强对多源异构档案的信息化处理。融合多源异构档案数据,设计一个合适的档案体系架构,更加有利于多源数据档案信息服务平台的设计与研发,是当下档案信息化建设的重要研究方向。

二、多源异构档案数据的融合方法


  1. 异构档案信息资源内涵
  异构档案信息资源是指由来自不同渠道、具有不同存储格式、具有独特数据特征的信息资源构成的数据集合。其主要的特点是具有异构性。这种异构性表现在以下五个方面:
  一是计算机组成的异构。每台计算机具有不同的物理特性,如指令系统不同等。这些物理特性决定了不同的存储体系架构,因此不同的计算机具有不同的物理存储结构,经典物理存储结构包括顺序存储、索引存储以及链接存储等。
  二是操作系统的异构。操作系统是用户和硬件交流的媒介,具有作业管理、存储管理、文件管理、设备管理等功能。处理来源于不同操作系统的数据,首先要考虑的就是如何将不同数据存储形式的数据进行标准化和统一化。典型的操作系统包括ios、Windows、MacOS X等。
  三是数据格式异构。不同的工具软件和信息存储平台使用过程中会根据实际数据处理的特点选择不同的数据模式,即不同的数据格式。数据格式的形式多样,存储和读取不同格式数据的方式是不一样的。比如常见的一些数据库管理系统,包括SQL Server、DB2、DM、MY SQL等,这些数据库管理系统使用二维表格存储数据,因此被称为关系型数据库系统;还有一些文本数据,由于涉及读写操作,因此存储为文件型数据会更合适,包括TXT、CXV、XLS等。
  四是数据存储地点异构。在一些大型档案系统中,由于数据是分散在全国乃至全世界的,因此无法统一对数据进行集中存储和管理。可以使用分布式技术对此类数据进行存储,如各地医保档案都分别存储在本地医保局系统中。这时就需要使用分布式数据存储的相关技术和原理。
  五是数据逻辑模型异构。在维护大规模数据时,同一意义的数据具有不同的表达形式。由于目前各个企业都具有自己的人力资源管理平台,每个平台的底层数据存储模型是不同的,会出现对同样的信息采用不同的逻辑模型来存储的现象,这样就会导致信息合成时的数据不一致等问题,这也是实现多源异构数据融合面临的重要问题。   2. 基于SVM的多源异构档案数据融合方法
  多源异构数据融合中,主流方法有神经网络、深度学习、SVM等。针对档案数据类别和分类层次较为固定的特点,选择SVM模型进行数据的融合可以较好地完成模型的训练,且分类精度较高,模型训练误差较小,有助于提升档案信息服务体系构建的时效性。
  SVM是由模式识别中广义肖像算法(Generalized Portrait Algorithm)发展而来的分类器,其早期工作来自前苏联学者Vladimir N. Vapnik和Alexander Y. Lerner在1963年发表的研究 。两位学者对广义肖像算法进行了进一步讨论并建立了硬边距的线性SVM。它可以根据结构风险的最小化来设计新型机器学习理论。由于档案数据具有海量性,目前已在多个领域有所应用,将SVM技术应用于档案数据异构融合,从而避免维数灾难现象的出现,在研究小样本和小概率事件上有很大的优势。SVM理论通过将输入的向量用函数映射到一个高维的特征空间,从而实现最优分类超平面。结构如图1所示。




三、构建档案信息服务体系方案


  多源异构的档案数据是档案信息服务体系最关键和最底层的部分,对其进行有效融合标准化是构建出适用性强、数据处理效率高的档案信息服务体系的重要基础。除底层数据的高效融合以外,在顶层架构设计上要考虑各个组件的交互方式,考虑组件间的无缝对接,以及新型档案数据的可扩展性。需要从实际情况出发,以档案数据处理流程的合法性、规范性、可操作性等方面作为评判标准,构建出一个底层结构稳健,顶层结构合理的档案信息服务体系,从而实现档案数据管理的长久方便利用。
  1. 总体思路
  在传统管理模式下,档案都是由各部门来收集,通过人工管理和标注档案信息,对一些电子档案数据进行检索查询。这样的服务模式具有服务结构单一、数据处理效率低下的缺陷。在大数据时代,应利用大数据技术对海量的档案信息进行数据实时、自动归集的操作,利用云平台来分析计算工作,实现档案信息的管理。利用云平台来架构档案信息服务体系可以为使用者提供智能分析、实时发现与精准预测等功能,可以更有效地融合企业档案并创造其潜在价值,实现个性化定制信息加工服务,满足用户对档案数据的精准化和个性化需求。
  2. 具体方案
  档案信息服务平台建设应该从以下三个方面来开展,分别为数据库模型、处理平台、数据展示。
  (1)数据库模型
  档案信息服务体系结构应以水平和垂直的综合模式来构建数据库模型,从而满足数据管理的智能化和自动化发展目标。水平模式保证了数据之间的模块具有独立互斥的特性,满足数据库设计的低耦合特性。垂直模式保证了下层模块可以为上层模块提供服务,而上层模块可以调用底层模块的功能,满足了数据库设计的高内聚特性。
  (2)处理平台
  可用于开发档案信息服务处理平台的成熟软件有Hadoop、Spark等,在企业档案信息服务方面,当前主要采用的是文本分析、自然语言处理,再结合搜索引擎、多源异构数据采集等多种非结构化数据处理技术。可以通过Iterative Algorithms、Realtime Queries、MapReduce、Stream Processing 等数据处理模型来实现大数据平台的开发。海贝(Hybase)大数据管理平台可以用于管理企业的档案信息服务。该平台主要包括了大数据管理集成平台、企业级检索平台和企业级NoSQL等常用功能模块,并且该框架下的各个子模块是可以定制和配制的,因此被称为弹性可扩展的数据存储检索系统。这样的多源异构数据仓库能够实现跨结构处理模式,比如能够以结构化来处理非结构化数据,也能够以非结构化来处理结构化数据。所以如何提高搜索引擎检索模式的匹配速率,使得档案数据管理平台具有更强大的便捷性,提升數据应用可靠性、安全性和易用性是档案信息服务体系架构平台设计的主要目标。在技术领域,高度新型非结构大数据管理系统是一种非结构化的大数据应用处理平台,其基础为非结构化数据管理系统,并且通过与索引分片、多引擎机制、多副本机制、自然语言处理、Hadoop/HDFS 等技术融合,提升平台处理数据的能力。
  (3)数据展示
  设计数据模型来存储多源异构数据,通过处理平台的设计实现了大数据平台的开发问题,而后档案数据需要经过一定的处理加工进行信息和数据的展示。数据展示主要包括了信息加工、电子文件归档、数字档案馆等环节。其中信息加工就是对信息进行二次组织,以满足用户检索查询等响应请求;电子文件存档就是数据的存储环节。平台支持多种文件格式的读取任务,并能实现将各类文件按类别进行分类存储;数字档案馆可以实现对各类电子文档进行查询和智能检索等服务,方便查询者个性化查询档案数据,实现面向用户的档案数据检索与展示服务。

四、档案信息资源共享平台数据处理优化实现


  档案信息服务平台不仅要从顶层设计上进行合理架构,设计出优化的数据库模型,使用高效的大数据管理工具进行开发,而且要对平台进行优化。主要包括使用用户浏览器缓存、采用CDN技术的前端数据优化和针对数据库中采用存储过程的后台数据优化。
  1. 前端数据处理优化
  档案信息资源服务平台的前端主要包括档案信息检索页面、档案信息管理和维护页面、用户管理页面。由于前端是面向用户的,所以其中对于检索页面的使用最为频繁。针对检索页面的数据处理优化,可以将CSS、JavaScript进行压缩存储并将其功能页面中的图片进行合并。当用户请求时,一次就可以完成CSS、JavaScript以及页面样式图片的获取。在档案信息资源服务平台上,将CSS、JS以及图标这些静态资源文件缓存在浏览器中,这样可以提升平台的访问效率,当用户进行资源请求时就可以直接读取浏览器上的缓存内容,实现了以最短路径实现资源访问,从而加快了平台的访问速度,减轻了档案信息资源服务平台服务器的负载。
  2. 后台数据处理优化
  不同于前端数据优化方案,后台数据方案要从如何减少数据访问量、提高存储的安全性以及如何提高查询效率等方面着手。因此后台数据处理优化主要采用以下方式:
  首先,减少档案信息资源服务平台档案检索页面中数据来回访问的数据量,设计详细的档案检索条件并提交到后台进行数据检索,数据库检索成功后将结果返回给用户,通过该方式极大地提升系统检索的性能,并且减少数据访问量。
  其次,为了减少前后台的数据交互,可以采用存储过程技术实现将过程数据处理逻辑封装到存储过程中,这样就不会出现网络重复的数据交互,减少数据交互频率。当档案检索过程中涉及复杂的数据提取时,此方法非常有效,因为此时档案数据可以通过存储过程处理并统一反馈给用户。并且由于存储过程采用参数的方式传入检索请求信息,不仅可以提升浏览器的检索性能,还极大地提升了平台的安全性。
  最后,为提高检索效率,可以采用索引技术。在档案信息最频繁使用的检索点上创建索引,确保访问检索信息的快速性。索引的创建大大提升了查询效率,但也会引入一些不利因素。比如对档案数据进行增删或者修改表中数据时,也需要同步更新索引文件,因此对于频繁需要更新的档案数据应尽量避免使用索引,减少信息变动带来其他功能问题。
  档案信息化建设是时代发展的趋势,档案工作也要适应当前的大环境,满足新时代发展的需要。大数据背景下档案信息服务平台的建设也要满足新技术、新时代的要求。将计算机学科与档案学科有效融合,提升信息管理效率,推动智慧档案建设工作顺利进行。
  注释与参考文献
  [1]曹筠慧,管先海,孙洋洋.基于大数据时代的档案价值及其开发利用探究[J].档案管理,2017(1):27-29.
  [2]郭立.基于信息服务生态系统的社区档案管理研究[J].山西档案,2018(3):137-139.
  [3]魏扣,李子林, 郝琦. 社交媒体应用于档案知识服务的SWOT分析[J].档案学研究, 2019(1):71-76.
其他文献
边疆地区境内外籍劳务人员的语言能力直接制约着其求职生活的质量,同时也制约着劳务输入市场的良性运转.以德宏为研究个案,对境内缅籍劳务人员的语言生活状况展开调查,对其汉
在前面,我们已经了解了这些病毒和它们引发的传染病。如果我们不小心在生活中被这些病毒感染了,应该如何科学地对待呢?来看看医生给出的建议吧。如果得了这几种疾病,医生会叮嘱你的话:Q感染HBV之后有什么症状,需要立刻看医生吗?A乙型肝炎是由HBV引起的传染病,传染途径为血液或体液,主要的症状是恶心、呕吐、黄疸、疲倦、茶色尿以及腹痛。初次感染造成的急性症状,通常在持续数周之后即会消退,极少数会造成死亡或严重并发症。虽然大部分慢性肝炎患者没有症状,但却有机会发展为肝硬化甚至肝癌。
病毒,一种地球上最微小同时又是数量最多的生命形式。据估计,如果把地球上的病毒首尾相接,能连成一条2亿光年的长链。病毒无处不在,空气、大海、土壤乃至南极冰层中都能找到它们的身影。病毒的定义通常是:一类非常小的、寄生在细胞中的非细胞结构,一般由单一类型的核酸(DNA或RNA)组成的基因组和包裹着核酸的蛋白质构成,有些病毒还含有由脂质和蛋白质组成的包膜。
名画之旅,品味艺术!首先,让我们先放下什么战斗啦、厮杀啦,收拾好心灵,来欣赏这样一幅名画《维纳斯的诞生》。画中蔚蓝的大海是爱琴海,在波光粼粼的海面上,有一个巨大的贝壳漂浮着。在贝壳的左上方,长着翅膀的风神正鼓起腮帮,把这个贝壳徐徐吹向岸边,而在巨大贝壳的中心,就站着我们的主角。她的右腿微微地弯曲,一头红色长发在海风中轻轻摇曳。她的眼神纯洁,透着一股淡淡的哀伤,仿佛不知道怎么和这个陌生的世界沟通。
(一)抢占滩头堡青婉还在梦中,忽然被同伴唤醒。“醒醒,准备出发了。”这名叫红蓉的同伴兴奋地说,“去下一个宿主那里。”这个消息像一道能量巨大的闪电,在水痘病毒大营里迅速传播开来。水痘病毒们都兴奋地窃窃私语起来,浪涛一般的声音,从营地这边,一直传到营地那边。“静一静!静一静!”青婉所在的这一支小队的队长白贝对大家讲话,那是一个身材特别魁梧的大家伙,一般水痘病毒的直径只有180nm,而他起码有210nm。"去宿主鼻黏膜的小队已经出发3天了,按照行程.
清代云南文学史的撰写,需要完成很多个案作家的研究。谢琼是嘉、道年间昆明著名诗人,交往广泛,参与了五华书院山长刘大绅为中心的诗人雅集,一生科场失意,以冷官终身。他的作品最有生命力的是真实反映科举求仕的奔波愁苦、失意之悲以及冷官心绪的诗词,风格既有清新凄婉的一面,亦不乏奔腾豪放之势。尤其词有苏辛风味,堪称滇词史上名家作手。其对于认识当时文坛面貌和云南落第文人群体都有重要的意义。
如果得了这两种疾病,医生会叮嘱你的话:狂犬病(俗称疯狗症,来自拉丁语:Rabies,意为“疯狂”)是一种由狂犬病病毒引起的人畜共患病,可于恒温动物身上造成严重脑炎。没有接受疫苗免疫的感染者,当神经症状出现后,死亡率达到100%。狂犬病病毒Q狂犬病病毒是如何感染的?A狂犬病病毒通常由其他动物传染给人类,哺乳动物中,灵长目、食肉目、翼手目等都可能染病,如人、猫、狗、雪貂、鼬獾、貉、浣熊、臭鼬、狐狸、狼、熊、蝙蝠、马,都可能是传染源。被染病动物或患病者抓伤、咬伤都可能被感染,染病动物的唾液在与其他动物或人类
4月26日至29日,省档案馆举行党建工作培训班暨党史学习教育集中学习研讨会,全馆近40名党务工作者参加了活动。此次活动专门安排了实景教学辅导内容,组织全体党务工作者前往安徽金寨革命老区,聆听党史课程,瞻仰红色遗址,祭奠革命英烈,参观老区新貌。在开班动员会上,省档案馆馆长陈向阳总结回顾了馆2020年度机关党建工作情况,在充分肯定成绩的同时,也指出了存在的问题,并对党务干部提出了三个方面要求:一要把全馆基层党支部建成攻坚克难的战斗堡垒;二要把旗帜鲜明讲政治作为干事创业的根本遵循.
5月14日,江苏省委常委、省委秘书长赵世勇到省档案馆调研指导工作,强调要认真落实习近平总书记关于档案工作的重要论述和视察江苏重要讲话指示精神,更好地服务支撑“强富美高”新江苏建设。省委副秘书长、省委办公厅主任杨根平,省委办公厅副主任周进等参加调研。
文章解析了档案机构主导的机器学习应用于档案管理的实验项目,旨在充分认识机器学习应用的可行性以及应用逻辑与方法。基于对澳大利亚新南威尔士州机器学习实验的过程分析,发现充足且高质量的数据集、软硬件等基础设施及专业人才是机器学习技术成功应用的重要因素。因此,档案机构应用机器学习技术可从推进档案数据化进程、加强技术型人才储备、立足档案管理实践制定应用方案等方向探索。