论文部分内容阅读
摘要:经过多年的努力,内蒙古地质档案管理服务信息化建设取得了重要成果,在大数据时代下,内蒙古自治区结合自身实际,开展地质档案精细化管理服务信息化建设,打破传统管理模式,地质档案按照文件级进行信息化管理服务,满足新一代信息技术条件下地质档案管理服务要求。
关键词:地质资料;精细化;文件级管理;元数据自动提取
1.引言
近年来,物联网、移动互联网、云计算、大数据、人工智能等新一代信息技术深刻地影响着科技和产业界,也对我们日常生产生活产生了重大的转变。物联网和移动互联网是新一代信息的基础;云计算为大数据存储、处理提供依托;大数据是人工智能的基础,为人工智能决策提供数据支持。
大数据在新一代信息技术中显得尤为重要。美国将大数据看作是“未来的石油”,政府投资巨资启动大数据研究和发展计划,并将这一计划上升到了国家高度[1];欧盟非常重视数据开放,由于数据资源全面开放,每年会给欧盟带来400亿欧元经济增长,欧盟认为大数据是促进经济增长的重要动力[2]。
内蒙古自治区把大数据、云计算产业作为培育战略性新兴产业的主攻方向、作为经济社会发展的新引擎,制定出台《内蒙古国家大数据综合试验区建设实施方案》和《内蒙古自治区促进大数据发展应用的若干政策》,决心把内蒙古建设成为“中国北方大数据中心、丝绸之路数据港、数据政府先试区、产业融合发展引导区、世界级大数据产业基地”[3]。
地质工作是内蒙古经济社会的先行性、基础性工作,涉及各行各业,关系到国计民生。地质档案资料是地质工作最直接的成果,由此形成地质资料信息产品有各种文本、图表、声像、实物、数字代码等形式资料和数据,这些资料和数据是内蒙古大数据重要组成部分。
传统方式采用中国科技档案通用的案卷级方式保存地质资料,这种保存方式中的案卷级目录无法详细地显示每件资料包含具体信息,使得精准信息难以获取。
为了适应大数据时代下地质档案信息管理服务要求[4-7],提升地质档案精细化管理服务,内蒙古自治区国土资源信息院在财政经费的支持下,进行了地质档案管理服务精细化建设,其主要目标为:按照大数据技术规范,汇聚地质档案数据,初步建成内蒙古自治区地质档案数据中心,在完善“地质档案管理与服务系统”的基础上,按照精细化管理服务要求,开发文件级地质档案管理与服务系统,实现地质档案信息按照细粒度(文件级)进行存储、管理、服务,即实现地质档案按照文件级目录、单个电子文件、段落进行管理服务;实现关联地质档案智能汇聚、提取、挖掘等应用。
2.系统设计
2.1内蒙古地质档案管理服务信息化现状分析
经过多年的努力,内蒙古地质档案管理服务信息化建设取得了重要成果,为自治区社会、经济发展提供了大量基础性信息产品。
利用电子阅览室,实现了地质档案到馆“一站式”服务;利用地质档案信息共享服务平台,实现了互联网在线服务;利用微信公众号等新媒体工具,拓宽服务渠道;利用自身地质档案信息库优势,积极开展各项专题服务。面向政府部门、基层地勘单位、矿业权人以及生产和科研机构等部门,积极提供地质档案多元化服务,同时为国家生态文明建设和自治区重大项目提供绿色通道服务,地质档案管理和服务能力逐年提高[8-14]。
2.2系统建设总体规划
系统建设按照先进性原则、实用性原则、标准化原则、安全可靠性原则、可扩展性原则进行系统设计。系统建设采用大数据技术平台、网络通信技术、数据访问技术、微服务软件开发技术;按照国家标准、行业标准以及地方性实施细则和规范进行,系统设计遵循统一的信息编码、规范;系统设计时充分考虑了与已有地质档案管理与服务系统整合,并为今后的功能扩充预留必要的软件接口,系统框架见图1。
基础设施层主要包括网络设施、网络存储、服务器等硬件设备,同时还包括支撑这些硬件设备运行的操作系统、应用软件等软设施;数据源层主要为结构化数据和非结构化数据,结构化数据包括地质档案案卷級目录库(成果资料目录数据库、原始资料目录库、实物资料目录库、涉密信息库等)和文件级元数据;非结构化数据有地质报告和图件等,通过数据采集、整理、清洗、转换、装载等过程,将多元、异构、分布的数据最终形成一个一体化大数据;计算层主要是大数据技术平台,主要包括分布式文件系统、数据库、数据库仓库、计算框架、流计算框架、数据挖掘等;业务组件和数据访问层采用微服务技术为应用平台提供数据安全传输、缓存访问、检索、用户管理、日志管理、可视化等。
应用平台是此次建设重点,在原有地质档案管理与服务系统的基础上,实现地质档案精细化管理服务升级,增加文件级管理服务信息化建设,完善电子阅览室系统和共享服务系统。
在已有的基础上,按照“总体规划,分步实施”的原则进行信息化建设,具体为:适应地质大数据技术发展要求,研究建立精细化地质档案管理元数据模型;按照该模型规范和要求,完成全馆八十多万件地质档案文件级元数据著录;开发文件级管理与服务系统;升级数据库,完善地质档案管理与服务系统;实现地质档案向智能化服务转变,在地质档案精细化管理服务基础上,融入人工智能,实现地质档案正文报告按章节进行搜索,并且能够按用户需要内容进行重新组合,实现地质档案知识服务。
2.3系统建设关键技术
大数据环境下,除了需要解决大数据应用中的关键技术外,更需要解决地质档案精细化管理服务中的关键技术。
由于不同时期地质档案数据的管理软件和保管格式也随着采用软件不同而格式不一致。综合利用图文数字化目录文件、电子文件登记表、地质档案归档汇交信息系统(EDMaker)软件中XML格式文件、案卷级目录数据库FoxPro等信息,实现地质档案文件元数据自动提取,自动提取的数据为:档号、题名、编著者、文件名称、中文名称、文件后缀、文件类型、文件路径、文件大小、比例尺、密级、密级来源、馆藏机构、资料分类、数字资源类型、语种、起始经度、起始纬度、终止经度、终止纬度等。自动提取的这些信息与文件级的文字报告和图件进行关联。 互联网环境下,需要解决地质档案正文报告和图件传输慢的问题。正文报告传输中采用“骨架法”,先传输地质档案文件级元数据、章节目录等信息,然后按需传输对应章节数据,这样能够大大提高传输效率,减少等待时间,通过这种技术,可以把正文报告、附图、附表、附件等信息组织在一起,形成整册阅读;图件传输中采用“瓦片法”,把图件按照“金字塔”规则切成“瓦片”,在浏览器端按需进行调度,通过这种方法,图形操作平滑,用户体验较好。
大数据环境下,资料检索采用基于地质领域本体,构建基于知识的检索技术[15]。其组成包括中英文分词、推理引擎、组成新的查询条件、返回结果等部分。推理引擎结合领域本体,根据本体上位词、下位词、相关词、实例词等进行语义推理,推理后形成新的查询条件,然后从结构化或非结构化数据中进行检索,并返回结果。
3.系统应用
系统建设在已有基础上,采用大数据技术、计算机网络等技术,采用面向对象技术开发,采用的技术先进,架构合理,开发的功能先进、实用。目前已经完成了文件级管理与服务开发,系统开发完成后在内蒙古自治区国土资源厅信息院进行上线运行,通过一段时间的试运行后,正式投入使用,如图2。
系统兼容中国地质调查局地质档案管理服务要求的各种数据格式,能够从不同格式地质档案数据中提取文件级信息,进行精细化管理服务;按照“应提尽提”的原则,自动化方式提取文件级信息;用户按照导入、自动提取、人工核实流程进行地质档案文件级元数据采集,能尽量减少人工工作量,提高工作效率。利用该系统,完成全馆文字类和图件类资料文件级元数据入库,其中自动提取元数据731660件,人工核对681719件。完成附图595828件,正文17409件,附件17409,附表29600件。
4.结论与建议
通过信息系统建设工作,首先查清了馆藏地质档案电子文件情况,并对馆藏电子文件进行了文件级元数据采集入库,为进行精细化管理服务提供了物质条件;开发完成的文件级地质档案管理与服务系统具备按照条件查询、图形查询功能,查询结果能够实现单个文件和案卷关联,提高管理服务能力。
建议进一步完善日常运行的地质档案管理与服务系统,使得地质档案从接收验收、管理、借阅服务全流程信息化更加优化,提升地质档案管理精细化水平,提高地质档案服务精准水准,建议如下:
(1)进一步把地质档案数据库更新维护日常化,在地质档案格式规范、涉密信息处理、接收验收方面安排专人专岗进行日常化处理,在信息系统的支持下,进行细粒度信息采集入库,提升精细化管理水平和服务效率。
(2)完善地质档案管理与服务系统,把文件级管理、借阅服务加入到地质档案管理服务系统中来,实现地质档案文件级查询、借阅、互联网在线服务;进一步提高地质档案知识服务能力。
参考文献:
[1]杨宗喜,唐金荣,周平.等.大数据时代美国地质调查局的科学新观[J].地质通报, 2013(09):1337-1343.
[2]朱雪征,李莉.欧盟空间数据基础设施规划研究[J].测绘通报, 2010(08):7-10.
[3]内蒙古自治区政府.内蒙古国家大数据综合试验区改革实施方案[EB/OL]. (2019-01-14)[2019-06-28]http://www.nmg.gov. cn/art/2019/1/4/art_365_246699.html.2019.
[4]谭永杰.地质大数据与信息服务工程技术框架[J].地理信息世界, 2016, 23(01):1-9.
[5]郑啸,李景朝,王翔.等.大數据背景下的国家地质信息服务系统建设[J].地质通报, 2015, 34(07):1316-1322.
[6]王翔,李景朝,陈辉.等.大数据与地质资料信息服务:需求、产品、技术、共享[J].地质通报, 2015, 34(07):1309-1315.
[7]陈建平,李婧,崔宁,等.大数据背景下地质云的构建与应用[J].地质通报, 2015, 34(07): 1260-1265.
[8]杨文海.大力开展地质档案资料信息化建设努力提高社会化服务水平[J].西部资源, 2008(04):35-36.
[9]裴兰英.论地质档案在国土资源管理中的地位和作用[J].西部资源, 2015(06):23-24.
[10]赵保胜,乌恩.内蒙古自治区地质档案资料管理与服务信息化实践[J].国土资源信息化, 2011(04):41-44.
[11]汪艳梅,陈小红.内蒙古地质资料一站式服务体系建设探讨[J].中国国土资源经济, 2017, 30(10):70-73.
[12]汪艳梅,陈小红.地质资料管理和服务信息化建设研究——以内蒙古地质资料馆为例[J].中国国土资源经济, 2017, 30(12):70-72.
[13]汪艳梅,陈小红.内蒙古地质资料接收验收管理信息系统开发与应用[J].西部资源, 2018, (06):197-198+201.
[14]汪艳梅,陈小红,姚晓洁.内蒙古地质资料管理服务向盟市延伸探索:以内蒙古鄂尔多斯市为例[J].中国矿业, 2018, 27(11):32-34+39.
[15]潘懋,闫东,张文静,等.基于本体的地质领域知识服务系统研究[C].第十三届全国数学地质与地学信息学术研讨会. 2014:6.
关键词:地质资料;精细化;文件级管理;元数据自动提取
1.引言
近年来,物联网、移动互联网、云计算、大数据、人工智能等新一代信息技术深刻地影响着科技和产业界,也对我们日常生产生活产生了重大的转变。物联网和移动互联网是新一代信息的基础;云计算为大数据存储、处理提供依托;大数据是人工智能的基础,为人工智能决策提供数据支持。
大数据在新一代信息技术中显得尤为重要。美国将大数据看作是“未来的石油”,政府投资巨资启动大数据研究和发展计划,并将这一计划上升到了国家高度[1];欧盟非常重视数据开放,由于数据资源全面开放,每年会给欧盟带来400亿欧元经济增长,欧盟认为大数据是促进经济增长的重要动力[2]。
内蒙古自治区把大数据、云计算产业作为培育战略性新兴产业的主攻方向、作为经济社会发展的新引擎,制定出台《内蒙古国家大数据综合试验区建设实施方案》和《内蒙古自治区促进大数据发展应用的若干政策》,决心把内蒙古建设成为“中国北方大数据中心、丝绸之路数据港、数据政府先试区、产业融合发展引导区、世界级大数据产业基地”[3]。
地质工作是内蒙古经济社会的先行性、基础性工作,涉及各行各业,关系到国计民生。地质档案资料是地质工作最直接的成果,由此形成地质资料信息产品有各种文本、图表、声像、实物、数字代码等形式资料和数据,这些资料和数据是内蒙古大数据重要组成部分。
传统方式采用中国科技档案通用的案卷级方式保存地质资料,这种保存方式中的案卷级目录无法详细地显示每件资料包含具体信息,使得精准信息难以获取。
为了适应大数据时代下地质档案信息管理服务要求[4-7],提升地质档案精细化管理服务,内蒙古自治区国土资源信息院在财政经费的支持下,进行了地质档案管理服务精细化建设,其主要目标为:按照大数据技术规范,汇聚地质档案数据,初步建成内蒙古自治区地质档案数据中心,在完善“地质档案管理与服务系统”的基础上,按照精细化管理服务要求,开发文件级地质档案管理与服务系统,实现地质档案信息按照细粒度(文件级)进行存储、管理、服务,即实现地质档案按照文件级目录、单个电子文件、段落进行管理服务;实现关联地质档案智能汇聚、提取、挖掘等应用。
2.系统设计
2.1内蒙古地质档案管理服务信息化现状分析
经过多年的努力,内蒙古地质档案管理服务信息化建设取得了重要成果,为自治区社会、经济发展提供了大量基础性信息产品。
利用电子阅览室,实现了地质档案到馆“一站式”服务;利用地质档案信息共享服务平台,实现了互联网在线服务;利用微信公众号等新媒体工具,拓宽服务渠道;利用自身地质档案信息库优势,积极开展各项专题服务。面向政府部门、基层地勘单位、矿业权人以及生产和科研机构等部门,积极提供地质档案多元化服务,同时为国家生态文明建设和自治区重大项目提供绿色通道服务,地质档案管理和服务能力逐年提高[8-14]。
2.2系统建设总体规划
系统建设按照先进性原则、实用性原则、标准化原则、安全可靠性原则、可扩展性原则进行系统设计。系统建设采用大数据技术平台、网络通信技术、数据访问技术、微服务软件开发技术;按照国家标准、行业标准以及地方性实施细则和规范进行,系统设计遵循统一的信息编码、规范;系统设计时充分考虑了与已有地质档案管理与服务系统整合,并为今后的功能扩充预留必要的软件接口,系统框架见图1。
基础设施层主要包括网络设施、网络存储、服务器等硬件设备,同时还包括支撑这些硬件设备运行的操作系统、应用软件等软设施;数据源层主要为结构化数据和非结构化数据,结构化数据包括地质档案案卷級目录库(成果资料目录数据库、原始资料目录库、实物资料目录库、涉密信息库等)和文件级元数据;非结构化数据有地质报告和图件等,通过数据采集、整理、清洗、转换、装载等过程,将多元、异构、分布的数据最终形成一个一体化大数据;计算层主要是大数据技术平台,主要包括分布式文件系统、数据库、数据库仓库、计算框架、流计算框架、数据挖掘等;业务组件和数据访问层采用微服务技术为应用平台提供数据安全传输、缓存访问、检索、用户管理、日志管理、可视化等。
应用平台是此次建设重点,在原有地质档案管理与服务系统的基础上,实现地质档案精细化管理服务升级,增加文件级管理服务信息化建设,完善电子阅览室系统和共享服务系统。
在已有的基础上,按照“总体规划,分步实施”的原则进行信息化建设,具体为:适应地质大数据技术发展要求,研究建立精细化地质档案管理元数据模型;按照该模型规范和要求,完成全馆八十多万件地质档案文件级元数据著录;开发文件级管理与服务系统;升级数据库,完善地质档案管理与服务系统;实现地质档案向智能化服务转变,在地质档案精细化管理服务基础上,融入人工智能,实现地质档案正文报告按章节进行搜索,并且能够按用户需要内容进行重新组合,实现地质档案知识服务。
2.3系统建设关键技术
大数据环境下,除了需要解决大数据应用中的关键技术外,更需要解决地质档案精细化管理服务中的关键技术。
由于不同时期地质档案数据的管理软件和保管格式也随着采用软件不同而格式不一致。综合利用图文数字化目录文件、电子文件登记表、地质档案归档汇交信息系统(EDMaker)软件中XML格式文件、案卷级目录数据库FoxPro等信息,实现地质档案文件元数据自动提取,自动提取的数据为:档号、题名、编著者、文件名称、中文名称、文件后缀、文件类型、文件路径、文件大小、比例尺、密级、密级来源、馆藏机构、资料分类、数字资源类型、语种、起始经度、起始纬度、终止经度、终止纬度等。自动提取的这些信息与文件级的文字报告和图件进行关联。 互联网环境下,需要解决地质档案正文报告和图件传输慢的问题。正文报告传输中采用“骨架法”,先传输地质档案文件级元数据、章节目录等信息,然后按需传输对应章节数据,这样能够大大提高传输效率,减少等待时间,通过这种技术,可以把正文报告、附图、附表、附件等信息组织在一起,形成整册阅读;图件传输中采用“瓦片法”,把图件按照“金字塔”规则切成“瓦片”,在浏览器端按需进行调度,通过这种方法,图形操作平滑,用户体验较好。
大数据环境下,资料检索采用基于地质领域本体,构建基于知识的检索技术[15]。其组成包括中英文分词、推理引擎、组成新的查询条件、返回结果等部分。推理引擎结合领域本体,根据本体上位词、下位词、相关词、实例词等进行语义推理,推理后形成新的查询条件,然后从结构化或非结构化数据中进行检索,并返回结果。
3.系统应用
系统建设在已有基础上,采用大数据技术、计算机网络等技术,采用面向对象技术开发,采用的技术先进,架构合理,开发的功能先进、实用。目前已经完成了文件级管理与服务开发,系统开发完成后在内蒙古自治区国土资源厅信息院进行上线运行,通过一段时间的试运行后,正式投入使用,如图2。
系统兼容中国地质调查局地质档案管理服务要求的各种数据格式,能够从不同格式地质档案数据中提取文件级信息,进行精细化管理服务;按照“应提尽提”的原则,自动化方式提取文件级信息;用户按照导入、自动提取、人工核实流程进行地质档案文件级元数据采集,能尽量减少人工工作量,提高工作效率。利用该系统,完成全馆文字类和图件类资料文件级元数据入库,其中自动提取元数据731660件,人工核对681719件。完成附图595828件,正文17409件,附件17409,附表29600件。
4.结论与建议
通过信息系统建设工作,首先查清了馆藏地质档案电子文件情况,并对馆藏电子文件进行了文件级元数据采集入库,为进行精细化管理服务提供了物质条件;开发完成的文件级地质档案管理与服务系统具备按照条件查询、图形查询功能,查询结果能够实现单个文件和案卷关联,提高管理服务能力。
建议进一步完善日常运行的地质档案管理与服务系统,使得地质档案从接收验收、管理、借阅服务全流程信息化更加优化,提升地质档案管理精细化水平,提高地质档案服务精准水准,建议如下:
(1)进一步把地质档案数据库更新维护日常化,在地质档案格式规范、涉密信息处理、接收验收方面安排专人专岗进行日常化处理,在信息系统的支持下,进行细粒度信息采集入库,提升精细化管理水平和服务效率。
(2)完善地质档案管理与服务系统,把文件级管理、借阅服务加入到地质档案管理服务系统中来,实现地质档案文件级查询、借阅、互联网在线服务;进一步提高地质档案知识服务能力。
参考文献:
[1]杨宗喜,唐金荣,周平.等.大数据时代美国地质调查局的科学新观[J].地质通报, 2013(09):1337-1343.
[2]朱雪征,李莉.欧盟空间数据基础设施规划研究[J].测绘通报, 2010(08):7-10.
[3]内蒙古自治区政府.内蒙古国家大数据综合试验区改革实施方案[EB/OL]. (2019-01-14)[2019-06-28]http://www.nmg.gov. cn/art/2019/1/4/art_365_246699.html.2019.
[4]谭永杰.地质大数据与信息服务工程技术框架[J].地理信息世界, 2016, 23(01):1-9.
[5]郑啸,李景朝,王翔.等.大數据背景下的国家地质信息服务系统建设[J].地质通报, 2015, 34(07):1316-1322.
[6]王翔,李景朝,陈辉.等.大数据与地质资料信息服务:需求、产品、技术、共享[J].地质通报, 2015, 34(07):1309-1315.
[7]陈建平,李婧,崔宁,等.大数据背景下地质云的构建与应用[J].地质通报, 2015, 34(07): 1260-1265.
[8]杨文海.大力开展地质档案资料信息化建设努力提高社会化服务水平[J].西部资源, 2008(04):35-36.
[9]裴兰英.论地质档案在国土资源管理中的地位和作用[J].西部资源, 2015(06):23-24.
[10]赵保胜,乌恩.内蒙古自治区地质档案资料管理与服务信息化实践[J].国土资源信息化, 2011(04):41-44.
[11]汪艳梅,陈小红.内蒙古地质资料一站式服务体系建设探讨[J].中国国土资源经济, 2017, 30(10):70-73.
[12]汪艳梅,陈小红.地质资料管理和服务信息化建设研究——以内蒙古地质资料馆为例[J].中国国土资源经济, 2017, 30(12):70-72.
[13]汪艳梅,陈小红.内蒙古地质资料接收验收管理信息系统开发与应用[J].西部资源, 2018, (06):197-198+201.
[14]汪艳梅,陈小红,姚晓洁.内蒙古地质资料管理服务向盟市延伸探索:以内蒙古鄂尔多斯市为例[J].中国矿业, 2018, 27(11):32-34+39.
[15]潘懋,闫东,张文静,等.基于本体的地质领域知识服务系统研究[C].第十三届全国数学地质与地学信息学术研讨会. 2014:6.