论文部分内容阅读
摘 要:本文以档案应用发展为契机,结合现在大数据概念,对目前档案应用提出了共建共享平台建设的设想。并探讨了实施的必要性及技术的展望。
关键词:高校档案 大数据 共建共享平台
一、引言
最近谷歌的“阿尔法狗”很出名,因为它“咬”了韩国的李世石。阿尔法狗的胜利,不是设计师围棋水平有多高,而是围棋大数据的价值的集中体现。高校档案“大数据”建设同样具有很高的价值。
二、什么是档案大数据
档案大数据是在档案方面涉及的规模巨大的信息量,这样的数据存在如下的特点:信息量大,数据结构无序,数据价值巨大。与此同时也存在价值密度低、数据目的性不明确的缺点。新媒体就是依托网络的信息传播途径,新媒体应该称为数字化新媒体。新媒体特征具有交互性与即时性,海量性与共享性,多媒体与超文本,个性化与社群化。这两者之间的特点结构决定他们在信息挖掘和利用方面有密切的聯系和互补性。档案大数据要通过新媒体催化并加工筛选,实现其数据价值的深层次挖掘和“增值”。新媒体需要档案大数据在背后做支撑实现其不同于传统媒体的特色支撑其生命周期不至于昙花一现。大数据给档案人带来的是思维的冲击,需要档案人既要坚持传统的档案管理思维,又要适应大数据背景下的变革和创新。
三、高校档案大数据共建共享平台建设的必要性
1.优化现有档案数据结构和内容。档案大数据给传统数据仓库架构带来了一系列的冲击和挑战,从数据存储层面来审视,仓储的构建者不得不面对来自两方面的焦虑:一是数据规模急速增长,现有的磁盘架构能否适应海量大数据的存储;二是数据结构复杂多样,现有的基于结构化数据为主体的存储方案能否兼容无模式的非结构化数据。
2.实现以数据内容为线索的档案管理,淡化数据对应的实物存储的物理位置概念。从档案实物和电子数据数据对应结构来看,原有的分门别类还能坚持多长时间?原来的库房面对大量的归进档案必须调整,是物理存贮位置的调整?还是逻辑存储位置连续的调整?从长远有效性方面来看,我们要结合馆藏布局,实际物理存储结构,以及技术的限制综合考虑优化实物档案存储。如基于内容地址存储方式的非结构化数据存储。如果我们不能及时有效简洁的调整,那么在数字化背景下档案管理人就变成了档案库房的搬运工了。
3.提高档案管理人员的业务素质。以现有的数据管理模式,需要数据收集、数据整理分析加工、数据的输出。在大数据背景下这些过程,这些工作量变得十分庞大,按照老方式老思路就成了不可能完成的任务。 这点上也容易看出档案管理人员要适应大数据背景下的档案管理工作,必须在原有的档案管理基础上增加档案方面数据管理的职能,如档案电子数据的大量录入、大量档案数据的重新整理和数据分析并加工,需要参与设计专业的档案数据输出模块,需要档案专业的人熟练应用数据管理技能严把关防止泄密。
4.有利于档案资源的管理利用。从数据利用角度来看,现有的档案管理平台,分块化,单调化严重。如果整体看待档案数据,同样的数据存贮重复,冗余的数据很多。但往往利用的时候,有可能想利用的人正好没有资源可用。
四、高校档案大数据共建共享平台建设构想
平台实行 “一对多”运行运转模式,“一”是一个数据存储处理中心,“多”是分布多点有各自特点,且面对终端用户的可视化操作系统。这个平台具有网格结构,各点模块独立但具有兼容性,平台具有很强的可塑性,不能独立封闭封装。在满足档案数据传递顺畅同时在安全方面需要独立安全认证。严格遵照国家档案安全管理标准,设置绝密、机密、秘密、内部、公开等多个级别,可根据重要程度和业务特点,将文件档案划分为不同等级和密级,实施不同强度的安全保护,有利于集中资源,优先保护涉及重要信息的档案文件。新时期档案工作在大数据背景下,给高校档案人带来了挑战和机遇。在现有的管理模式下必须与时俱进,需要构建档案部门的数据存储处理中心。这样的中心贯穿整个档案数据的收集分析处理输出各级段。这个档案数据存储处理中心满足以下特点:
1.能提供技术支持大量档案数据的录入,合理规划存储档案数据的数据结构。从而支持我们的数字档案馆建设决策,以满足档案利用者多样性的利用需求。
2.能够对档案数据进行全面地分析,对数据关联、挖掘方向提出指导意见。支持各级各类档案馆的决策管理;优化各级各类档案馆的档案信息资源。
3.能够扩展档案信息服务方式传播途径,提高服务质量,延长服务时间,拓展服务范围。
4.探索档案信息的输出,借助更多的新媒体实现智能、高效快速的主动的信息输出。
5.探索档案数据和其他数据融汇的切合点,使档案数据发挥更大的价值。
这样的数据处理中心,或许仅凭借一所高校档案馆,一省辖属的档案馆难以真正实现,并完全发挥其功能。所以需要借助教育部直属高校档案工作协会这样的平台,联合协会力量积极协助,并酝酿构建一个可行并且上规模的档案数据收集开发利用平台,积极利用新媒体来实现大数据背景下的档案价值。
五、建设目标
1. 建设一个运行高效、使用与维护方便、安全可靠、系统平台和业务功能具有较大的可扩展性、模块化运转、运用先进计算机技术的系统。
2. 软件设计体现的适用性、灵活性、可分布式扩展性,适合高校档案管理现状、功能可以自由组合、能适应未来档案业务拓展。
3. 设计中充分考虑“大数据”使用效率情况,特别是可以支持多线程调阅。
4.设计充分考虑海量影像数据,以及基于内容地址存储方式的非结构化数据存储的系统架构,及采用架构对海量影像数据的存取效率的合理性、存储方式安全性和实用性。(摘抄的)
5. 整个系统根据系统所支持的档案业务,将分类窗口提交的业务资料按类型逐一划分,并在查询中作为查询条件加以体现。
6. 系统的制作规范、标准,具备升级、兼容的能力,以便出现新的形势时,可以基础扩展功能而无须重建。
7. 系统预留下与其他类型数据库系统连接的标准接口,适应各高校档案数据的共享通用性。
8. 系统建设方案充分考虑到多数高校的网络状况,给出一个最优化的流程以确保系统的高效性和网络资源的合理利用。
9. 系统运行期间,根据政策变动及业务需求调整,整个系统的功能和业务品种能灵活调整与增加。
10.系统有依据现有的技术和硬件支持,有较好的产品化特性,能够快速、稳定的进行实施。最好比较廉价。
11.档案数据要有安全地系统数据存储策略和严格的管理员权限控制,在容灾、备份上有长远的考虑和保障措施。
如果要实现档案大数据和新媒体结合,借助新媒体发展档案,并使之活力涌现。在这些背后,必需要档案人的积极推进和维护。档案人在传统档案工作的道路上已经走了50步,我们更需要在大数据背景下档案工作道路上大步再前进50步。假如这样档案平台的能够实现,可以推进各单位档案管理服务水平,且积极宣传档案工作,推动高教范围内档案的融合和交流,在全国范围内形成一个高教系统的“大档案局面”。
当然,现在全国范围内禁止面向个人用户的网络大容量存储平台,但是如果我们建设了也不在约束范围内,我们是企业级用户。
参考文献:
[1]高茂科.档案大数据来袭[J],http://www.cctime.com/html/2014-4-30/2014430151055980.htm.
[2]王聪彬. 大数据时代对传统数据仓库的五点思考[J],http://do.chinabyte.com/250/12668750.shtml .
[3]彭科峰. 建立大数据共享平台[J],《中国科学报》,20140513 第4版 综合.
关键词:高校档案 大数据 共建共享平台
一、引言
最近谷歌的“阿尔法狗”很出名,因为它“咬”了韩国的李世石。阿尔法狗的胜利,不是设计师围棋水平有多高,而是围棋大数据的价值的集中体现。高校档案“大数据”建设同样具有很高的价值。
二、什么是档案大数据
档案大数据是在档案方面涉及的规模巨大的信息量,这样的数据存在如下的特点:信息量大,数据结构无序,数据价值巨大。与此同时也存在价值密度低、数据目的性不明确的缺点。新媒体就是依托网络的信息传播途径,新媒体应该称为数字化新媒体。新媒体特征具有交互性与即时性,海量性与共享性,多媒体与超文本,个性化与社群化。这两者之间的特点结构决定他们在信息挖掘和利用方面有密切的聯系和互补性。档案大数据要通过新媒体催化并加工筛选,实现其数据价值的深层次挖掘和“增值”。新媒体需要档案大数据在背后做支撑实现其不同于传统媒体的特色支撑其生命周期不至于昙花一现。大数据给档案人带来的是思维的冲击,需要档案人既要坚持传统的档案管理思维,又要适应大数据背景下的变革和创新。
三、高校档案大数据共建共享平台建设的必要性
1.优化现有档案数据结构和内容。档案大数据给传统数据仓库架构带来了一系列的冲击和挑战,从数据存储层面来审视,仓储的构建者不得不面对来自两方面的焦虑:一是数据规模急速增长,现有的磁盘架构能否适应海量大数据的存储;二是数据结构复杂多样,现有的基于结构化数据为主体的存储方案能否兼容无模式的非结构化数据。
2.实现以数据内容为线索的档案管理,淡化数据对应的实物存储的物理位置概念。从档案实物和电子数据数据对应结构来看,原有的分门别类还能坚持多长时间?原来的库房面对大量的归进档案必须调整,是物理存贮位置的调整?还是逻辑存储位置连续的调整?从长远有效性方面来看,我们要结合馆藏布局,实际物理存储结构,以及技术的限制综合考虑优化实物档案存储。如基于内容地址存储方式的非结构化数据存储。如果我们不能及时有效简洁的调整,那么在数字化背景下档案管理人就变成了档案库房的搬运工了。
3.提高档案管理人员的业务素质。以现有的数据管理模式,需要数据收集、数据整理分析加工、数据的输出。在大数据背景下这些过程,这些工作量变得十分庞大,按照老方式老思路就成了不可能完成的任务。 这点上也容易看出档案管理人员要适应大数据背景下的档案管理工作,必须在原有的档案管理基础上增加档案方面数据管理的职能,如档案电子数据的大量录入、大量档案数据的重新整理和数据分析并加工,需要参与设计专业的档案数据输出模块,需要档案专业的人熟练应用数据管理技能严把关防止泄密。
4.有利于档案资源的管理利用。从数据利用角度来看,现有的档案管理平台,分块化,单调化严重。如果整体看待档案数据,同样的数据存贮重复,冗余的数据很多。但往往利用的时候,有可能想利用的人正好没有资源可用。
四、高校档案大数据共建共享平台建设构想
平台实行 “一对多”运行运转模式,“一”是一个数据存储处理中心,“多”是分布多点有各自特点,且面对终端用户的可视化操作系统。这个平台具有网格结构,各点模块独立但具有兼容性,平台具有很强的可塑性,不能独立封闭封装。在满足档案数据传递顺畅同时在安全方面需要独立安全认证。严格遵照国家档案安全管理标准,设置绝密、机密、秘密、内部、公开等多个级别,可根据重要程度和业务特点,将文件档案划分为不同等级和密级,实施不同强度的安全保护,有利于集中资源,优先保护涉及重要信息的档案文件。新时期档案工作在大数据背景下,给高校档案人带来了挑战和机遇。在现有的管理模式下必须与时俱进,需要构建档案部门的数据存储处理中心。这样的中心贯穿整个档案数据的收集分析处理输出各级段。这个档案数据存储处理中心满足以下特点:
1.能提供技术支持大量档案数据的录入,合理规划存储档案数据的数据结构。从而支持我们的数字档案馆建设决策,以满足档案利用者多样性的利用需求。
2.能够对档案数据进行全面地分析,对数据关联、挖掘方向提出指导意见。支持各级各类档案馆的决策管理;优化各级各类档案馆的档案信息资源。
3.能够扩展档案信息服务方式传播途径,提高服务质量,延长服务时间,拓展服务范围。
4.探索档案信息的输出,借助更多的新媒体实现智能、高效快速的主动的信息输出。
5.探索档案数据和其他数据融汇的切合点,使档案数据发挥更大的价值。
这样的数据处理中心,或许仅凭借一所高校档案馆,一省辖属的档案馆难以真正实现,并完全发挥其功能。所以需要借助教育部直属高校档案工作协会这样的平台,联合协会力量积极协助,并酝酿构建一个可行并且上规模的档案数据收集开发利用平台,积极利用新媒体来实现大数据背景下的档案价值。
五、建设目标
1. 建设一个运行高效、使用与维护方便、安全可靠、系统平台和业务功能具有较大的可扩展性、模块化运转、运用先进计算机技术的系统。
2. 软件设计体现的适用性、灵活性、可分布式扩展性,适合高校档案管理现状、功能可以自由组合、能适应未来档案业务拓展。
3. 设计中充分考虑“大数据”使用效率情况,特别是可以支持多线程调阅。
4.设计充分考虑海量影像数据,以及基于内容地址存储方式的非结构化数据存储的系统架构,及采用架构对海量影像数据的存取效率的合理性、存储方式安全性和实用性。(摘抄的)
5. 整个系统根据系统所支持的档案业务,将分类窗口提交的业务资料按类型逐一划分,并在查询中作为查询条件加以体现。
6. 系统的制作规范、标准,具备升级、兼容的能力,以便出现新的形势时,可以基础扩展功能而无须重建。
7. 系统预留下与其他类型数据库系统连接的标准接口,适应各高校档案数据的共享通用性。
8. 系统建设方案充分考虑到多数高校的网络状况,给出一个最优化的流程以确保系统的高效性和网络资源的合理利用。
9. 系统运行期间,根据政策变动及业务需求调整,整个系统的功能和业务品种能灵活调整与增加。
10.系统有依据现有的技术和硬件支持,有较好的产品化特性,能够快速、稳定的进行实施。最好比较廉价。
11.档案数据要有安全地系统数据存储策略和严格的管理员权限控制,在容灾、备份上有长远的考虑和保障措施。
如果要实现档案大数据和新媒体结合,借助新媒体发展档案,并使之活力涌现。在这些背后,必需要档案人的积极推进和维护。档案人在传统档案工作的道路上已经走了50步,我们更需要在大数据背景下档案工作道路上大步再前进50步。假如这样档案平台的能够实现,可以推进各单位档案管理服务水平,且积极宣传档案工作,推动高教范围内档案的融合和交流,在全国范围内形成一个高教系统的“大档案局面”。
当然,现在全国范围内禁止面向个人用户的网络大容量存储平台,但是如果我们建设了也不在约束范围内,我们是企业级用户。
参考文献:
[1]高茂科.档案大数据来袭[J],http://www.cctime.com/html/2014-4-30/2014430151055980.htm.
[2]王聪彬. 大数据时代对传统数据仓库的五点思考[J],http://do.chinabyte.com/250/12668750.shtml .
[3]彭科峰. 建立大数据共享平台[J],《中国科学报》,20140513 第4版 综合.