基于大数据平台的数据治理系统建设

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:saialmaster
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:数据治理系统作为大数据平台的核心基础支撑系统,旨在为数据仓库、数据服务平台、大数据基础平台以及实时共享交换平台,提供统一、便捷、高质量和价值最大化的数据资源,是数据应用和实现数据跨部门联通的基本保障。该文提出基于大数据平台的数据治理系统建设方案,为降低后续数据治理的改造成本、实现各部门互联互通和达到数据资源价值最大化,提供有效基础支撑。
  关键词:数据治理系统;大数据平台;数据仓库;数据服务平臺;数据资源
  中图分类号:TP303        文献标识码:A
  文章编号:1009-3044(2021)30-0044-02
  开放科学(资源服务)标识码(OSID):
  Construction of Data Governance System based on Big Data Platform
  HU Fang1, GU Xiao-guang1,2
  (1.Henan Big Data Center, Zhengzhou 450003, China; 2.Nanjing University Business School, Nanjing 210093,China)
  Abstract: As the basic support system of big data platform, data governance system aims to provide unified, convenient, high-quality and value maximized data resources for data warehouse, data service platform, big data basic platform and real-time sharing and exchange platform. It is the basic guarantee for data application and cross departmental data connectivity. In this paper, the construction scheme of data governance system based on big data platform was put forward, which provides effective basic support for reducing the transformation cost of subsequent data governance, realizing the interconnection of various departments and maximizing the value of data resources.
  Key words:data governance system; big data platform; data warehouse; data service platform; data resource
  1 引言
  大数据时代数据是公认的一项重要资产。数据作为对真实世界的对象、事件和概念的被选择属性的抽象表示,由可明确定义的约定对其含义、采集与存储进行表达和理解[1]。数据治理是将数据作为资产进行管理,建立统一标准,检核数据质量,准确描述数据元属性,分析数据之间关联关系,形成数据资源目录,实现数据快速检索,对数据全生命周期进行管理的整套流程体系[2]。
  数据治理系统作为大数据中心的核心基础支撑系统,旨在为数据仓库、数据服务平台、大数据基础平台以及实时共享交换平台,提供统一、便捷、高质量、价值最大化的数据资源。本研究从数据全生命周期的整体视角,通过统筹规划数据治理系统,在系统建设伊始就实现统一的数据高质量、高标准管理,有效避免后续为数据统一治理而带来的高昂改造成本,以实现数据资源互联互通和价值最大化。
  2 基于大数据平台的数据治理系统设计
  2.1系统目标
  数据治理系统的目标是提高数据的质量(准确性和完整性),保证数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机构部门的共享;推进信息资源的整合、对接和共享,提升组织的整体信息化水平,充分发挥信息化作用[3]。
  2.2系统设计
  数据治理系统所涉及的技术及功能主要包括数据标准管理、元数据管理、数据质量管理、血缘管理、影响分析、数据资产管理、数据目录管理、数据生命周期管理等,具体结构可见图1。
  2.2.1数据标准管理
  数据标准管理对数据进行全生命周期管控,支持数据标准的制定及审核。落地映射的标准数据进入系统,可供数据使用者对标准进行查询,同时提供标准版本管理。数据标准管理内容包含数据标准集成、数据标准映射、标准查询和标准版本管理。
  2.2.2元数据管理
  元数据是一种电子式目录,为了达到编制目录的目的,必须描述并收藏数据的内容或特色,进而达成协助数据检索的目的。元数据描述了数据属性的信息,用于支持如指示存储位置、历史数据、资源查找、文件记录等功能[4]。元数据管理主要包含元数据分析管理和采集管理,通过元数据管理可以降低了用户理解和使用数据的难度。
  2.2.3数据质量管理
  数据质量管理是通过统一的数据标准来提升数据质量,为政务数据的质量管控提供技术支撑。借助数据标准和元数据工具体系,可以有效识别各类数据的质量问题;针对质量问题,通过血缘管理和影响分析,可以快速定位到责任人,具体数据质量管理流程如图2所示。
  2.2.4血缘管理   数据血缘管理以目标对象为起点、目标分析为终点,按照引用关系逐层扩展。为了能清楚地了解数据加工过程和更完善地处理数据更新机制,需要建立数据血缘分析功能,以使用户清楚数据生成的来龙去脉,并实现在数据产生、加工融合、数据流通到最终消亡等数据处理过程中形成关联关系集合。
  2.2.5影响分析
  影响分析,研究数据变更对业务逻辑、业务流程、数据标准以及平台技术层面的影响,提供为实现业务所写的程序代码等改变并输出评估报告,给数据更改方和受影响方等参考,帮助数据所有者判断是否必要进行数据的更改,以及提出受影响方需要做出的准备。
  2.2.6数据资产管理
  数据资产是能够为政府治理及社会服务产生价值的数据资源,而非所有的数据都构成数据资产。数据资产管理对数据资产进行分级分类,筛选出有效的数据资产。在资产权限管理的指导下,对内可进行共享和交换数据,对外可开放共享数据及提供API接口、供应用层访问,同时支持资产使用情况的调用统计。
  2.2.7数据目录管理
  数据目录管理实现数据目录从创建、发布、维护到对接的动态规范管理。通过对采集的数据源及元数据按目录层级进行存储,可存储表数据、图片和视频等数据资源及元数据,支持数据服务平台和上层应用展示,方便用户快速查找数据资源,同时支持政务信息资源目录的编制以及与各级目录平台的对接。
  2.2.8数据生命周期管理
  数据生命周期管理,是对信息系统的数据在整个生命周期内的流动进行管理(创建、初始存储、过期删除等)。数据生命周期管理支持将所涉及过程自动化,根据指定的策略将数据组织成各个不同的层,并基于关键条件自动地将数据从一个层移动到另一个层。
  3 结论
  本文从数据全生命周期的整体视角,设计基于大数据平台的数据治理系统。该系统在建设之初就为实现统一的数据高质量、高标准管理而设计,预期能够满足组织在数据治理方面的功能需求,并有效避免系统为实现数据的统一治理而带来的高昂改造成本,为数据资源互联互通和价值最大化提供支撑。
  参考文献:
  [1] 胡锐, 芮忠. 基于数据中台的高校数据治理系统的设计[J]. 电子世界, 2020(12):187-188.
  [2] 安倩楠. 基于大數据技术的智慧校园整体构建研究[J]. 电脑知识与技术, 2021,17(17):94-95+107.
  [3] 林海.数据治理在合肥市政府大数据平台中的应用和实践[J].电脑知识与技术, 2019,15(10):281-283.
  [4] 姚洪.基于数据中台的数据治理系统的设计与实现[J].科学技术创新, 2020(35):74-75.
  【通联编辑:王力】
其他文献
摘要:代理移动IPv6引入指针推进机制,解决了移动节点切换过程频繁向本地移动锚点注册的问题。但相邻移动接入网关之间距离较远时,切换性能没有明显改善。提出一种基于指针策略的PMIPv6优化方案,建立指针链的同时,优先向距离较近的本地移动锚点注册,优化绑定更新的过程。性能分析结果表明,无论何时,优化方案的绑定更新开销总是小于现有方案,证明了该优化方案在减少网络开销方面的优越性。  关键词:代理移动IP
摘要:为提高微微鼠探索迷宫的稳定性,并减少微微鼠在复杂迷宫中的探索时间,论文提出了基于STM32F429和A3P250的双核控制器,智能S转法的探索法则通过六条不同轨迹来实现转入和转出,短距离调整实现微微鼠不同探索路径的衔接,陀螺仪的加入可以实现微微鼠直线位置和转弯的精确补偿,前墙传感器和陀螺仪组合保证了连续转弯姿态的准确性;微微鼠高速探索实验表明,S转法能显著提高微微鼠转法的稳定性和快速性,有利
该文分析了聚类分析算法的基本思想、原理、数学模型及实现过程,详细地分析了几种经典的聚类分析算法的优缺点,最后介绍了常用的聚类分析算法的有效性分析方法。
摘要:在科技迅速发展的背景下计算机大数据技术得到了长足的发展,当前计算机大数据技术的应用范围越来越广阔。为了促进电力的节能,很多城市都引入了计算机大数据技术。计算机大数据的应用在很大程度上推动了城市电力节能的发展。该文通过分析计算机大数据技术在城市中的应用方法,为推动城市电力节能的发展提出了一些建议。  关键词:计算机;大数据;城市能源;节能;应用  中图分类号:TP311 文献标识码:A  
摘要:目前高校的智慧教室主要用于慕课和翻转课堂的教学实践,在国家新政策的指导下,智慧教室在教学中发挥着日益重要的作用。该文以具体项目为例,从建设目标、市场调研入手,确定项目的技术特点,根据用途对智慧教室进行分类,从软硬件配置、环境改造等方面来探索智慧教室的架构、建设及应用。  关键词:智慧教室;智能化;架构设计;建设及应用;学习环境  中图分类号:G642 文献标识码:A  文章编号:100
摘要:数据库的使用频度和使用规模已成为国家现代化的重要标志之一。大学生应该具有使用数据库知识解决本专业问题的能力。此网站可以辅助学生巩固理论知识、提高实践能力。该网站分为管理员、教师、学生三个角色,主要实现对课堂、课件视频等学习资料、学生、练习与测试、个人信息等管理功能。网站设计基于 SpringBoot和Vue 框架,采用SQL Server数据库进行数据存储、管理。该系统具有界面简洁、使用方便
摘要:随着物联网、车联网、泛在电力物联网的迅猛发展,海量的传感数据需要被记录下来并用于大数据分析,所以对这类和时间序列强相关数据的存储和检索也提出了更高的要求,尤其在智能驾驶、运输、消防、电力等特殊业务更为突出。在这种背景下,时序数据库逐步发展并得到了广泛的应用。相对于传统关系型数据库它的存储空间减半,查询速度极大提高,是解决海量数据处理的一项重要技术。该文分析了时序数据的存储与数据查询原理,并对
摘要:近十年来,我国信息技术不断发展,无线网络已经广泛应用到各个行业和人们日常生活中,对于无线网络安全提出更高的要求,由于无线网络具有开放性特点,而如何提高无线网络的安全性已经亟须解决问题。本文从无线网络中的安全问题、不同地点的无线网络存在的安全隐患以及提高无线网络安全的具体措施等几个方面进行分析,如何提升无线网络安全防,为我国无线网络技术发展提供参考。  关键词:无线网络;安全防护技术;安全问题
摘要:抢票软件的出现,在一定程度上缓解了铁路12306官方购票系统的售票压力,并被人们加上“买票快”,“买票方便”的标签,但其实抢票软件类似于生活中的一种插队现象,不仅没有抢票率的保证,而且从用户隐私安全和系统操作性能而言,抢票软件存在泄漏用户隐私、隐形收费、对服务器资源造成破坏等问题。  关键词:多线程并发;模拟分析危害  中图分类号:TP393 文献标识码:A  文章编号:1009-304
摘要:随着高职院校在宣传手段、影响力范围、信息公开程度等方面的拓展需求不断增多,站群管理应更加注重意识形态的积累和沉淀,传统的单站单人采编、审核、发布已经无法满足高速信息时代碎片化信息的高频率展示需求,针对高职院校网站内容质量、服务器管理、意识形态等保障性工作无法得到长期有效落实的问题, 该文基于站群系统建设与应用,充分利用先进的站群管理和采编中心技术,从站群管理层面提升新闻质量、加强队伍建设、强