基于数据仓库的ETL技术研究分析

来源 :数字化用户 | 被引量 : 0次 | 上传用户:goodshape
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】随着计算机技术、网络技术的不断发展,人们将数据库进行加工,进而形成了数据仓库,数据仓库具有其独特的功能和作用,从数据仓库中可以准确、安全的提取出需要数据等。数据仓库的核心技术是ETL技术,本文针对基于数据仓库的ETL技术相关的内容进行研究分析。
  【关键词】数据仓库 ETL技术 数据转换
  随着科学技术的发展,数据库技术也在不断的发展,人们将数据库技术进行再加工,进而形成了数据仓库,数据仓库中的数据有不同的来源,进而形成了不同来源、不同形式的数据,这些数据需要对其进行管理,并对其质量进行维护等,ETL技术就是对数据进行处理管理的一种技术。本文针对基于数据仓库的ETL技术进行研究分析。
  一、ETL技术
  ETL是数据采集的简称,数据采集是由数据的抽取、转换、清洗、装载等组成的,数据采集是数据仓库构建中的重要内容,从数据源中抽取所需要的数据,然后对抽取到的数据进行清洗,将其按照一定的数据仓库的模型,放到数据仓库中。数据采集中的数据抽取其实就是数据源接口,数据源接口从不同的系统中抽取所需要的数据,将其作为数据仓库的输入数据,数据转换是对不同系统中生成的数据源进行处理,保证这些不同的数据源可以按照规定的要求输入到数据仓库中。数据清洗是对所有的数据进行处理,使得数据集中的所有数据值保持一致,并可以正确的对这些数据进行记录。
  在一个企业的管理中,其管理人员都希望可以随时的获取所需要的数据和信息,所以就需要有这样一个系统,将这的外部数据和内部数据进行整理和储存方便查询。但是这些数据信息有不同的来源,具有数量、不清洁等诸多不良特点,进而不能直接对这些数据进行使用,也不能直接将这些数据输入到数据仓库中,所以需要对这些数据先进行处理分析,然后再将这些数据以高质量输入到数据仓库中供用户的使用。
  ETL在数据仓库中具有非常重要的位置,数据仓库其实就是一个独立的数据环境,它需要从不同的系统中抽取所需要的数据,然后通过ETL将这些数据进行处理,处理过后的数据信息才可以安全的输入到数据仓库中。ETL技术主要涉及到互连、复制、转换、监控等方面的内容,在数据仓库中的数据不需要和处理系统中、或者其他相关系统中的数据保持同步,所以ETL中的数据抽取可以定时的进行,但是ETL的成功与否,关系到数据仓库中信息有效性。
  二、ETL系统的设计
  数据仓库是为了实现数据的存储、检索以及表达,例如当数据仓库中的数据需要从一种形式转换成另一种形式时,ETL的数据转换就需要进行考虑,同时ETL中的数据抽取、转换、装载等都需要变成转换操作,所以对于数据仓库而言数据转换是其核心部分。
  我们对ETL中的数据转换进行分析研究,将数据的转换看成是转换活动,在数据转换的过程中,将数据由一种形式转换成另一种形式,源数据和目标数据都是数据转换中的元素,这些数据转换元素可以是任何形式的数据元素,可以是图,也可以是表,ETL的数据转换可以是一个数据目标由一个数据源进行转换,也可以是一个数据目标由多个数据源进行转换,而且数据转换也可以在其转换过程中生成不同的临时数据。当ETL数据转换在进行一个转换活动时,其可以按照一定的转换步骤,将此次转换进行定义为确定性或者不确定性。
  三、ETL技术操作
  ETL技术具有非常强大的功能,而ETL技术的各项功能很大程度上是由其数据转换规则的完整、健全决定的。经过对ETL技术以及相关的数据进行分析研究发现,数据仓库中的数据以及其数据源都是采用数据库的方式进行储存的,数据转换规则均是针对和数据仓库、数据源等相关的数据库而定的,而且这些数据转换规则采用的是开放式的管理方法,用户可以在这些规则的基础上,对自己所需的数据进行简单的转换或者复杂的转换,还可以通过转换组合的方法,实现数据转换的目的。其中最为常见的ETL技术操作有:
  (一)数据仓库中数据有效性检查
  为了将数据冗余等问题进行避免,在抽取的数据进入到数据仓库之前,需要对其进行有效性检查,这项工作在数据仓库数据输入中非常重要,如果没有对这些即将输入到数据仓库的数据进行有效性检查,就会对整个数据仓库的完整性产生破坏,或者将其破坏的几率大大的增加。对数据进行有效性检查最好的方法就是源系统。在源系统中有专业的和非专业的技术知识人员,但是数据有效性检查是一项费时又不可省略的一个环节,所以可以进行自动化的检查。
  (二)数据的清除
  ETL技术进行的数据有效性检查是对数据进行标准给定的过程,如果数据的给定没有在界定的范围之内,那么它就是需要清除的对象。数据的清除包括了在给定界限范围之外的数据,对这些数据采取一定的纠正措施。
  (三)将数据格式化
  我们知道数据仓库中的属数据来自不同的数据源,这些数据源可能出现的不同的平台上,有不同的操作系统,所以这些数据会以不同的形式输入到数据仓库中。如何将这些数据加载,是数据仓库建立中需要考虑的一个问题,在进行数据迁移的过程中,会将数据以一种适合数据仓库的格式转入数据仓库中,这就是数据的格式化,对数据的处理是数据仓库成功建立的关键,所以在数据提取的过程中,对数据进行格式化,从操作中实现数据资源的共享。
  数据库技术的发展得到延伸,在此基础上进行再加工,进而形成了数据仓库,但是数据从不同的系统进入到数据仓库之前需要进行检查、处理,这样才可以保证数据仓库的完整性和安全,ETL技术是基于数据仓库的一种数据处理技术,在数据进行数据仓库之间,进行处理检查,使数据的格式满足数据仓库需求,虽然ETL技术还有待改进,但是其在数据仓库中起到的作用不可忽视。
  参考文献:
  [1]刘繁艳.基于数据仓库的ETL技术研究[J].软件导刊. 2007(06):30-31
  [2]白果,贾玉文.数据仓库中ETL技术的研究与改进[J].甘肃科技.2012(10):62-63
  [3]金明.企业数据仓库的ETL技术[J].电力信息化. 2010(09):44-45
其他文献
类风湿性关节炎(RA)是一种以白细胞渗入关节滑膜组织与滑液中为特征的炎症性疾病.RA的靶器官是滑膜,其病理特点为累及周身关节的增生性和侵蚀性滑膜炎和破坏骨、软骨的侵袭性血管翳形成[1].我们通过建立Ⅱ型胶原诱导大鼠类风湿性关节炎(CIA)模型[2],采用逆转录-聚合酶链反应(RT-PCR)、免疫组织化学、免疫荧光染色等方法观察在大鼠膝关节滑膜组织中SSeCKS的表达变化及其与炎症的关系。
期刊
目的 探讨蛋白激酶B(PKB)、Caspase-9信号通路活化对胃癌细胞生长的影响及其与胃癌细胞对足叶乙甙化疗敏感性的关系.方法分别用足叶乙甙、足叶乙甙和PKB通路特异性抑制剂Wortmannin在不同时间段处理胃癌肿瘤细胞SGC7901后,采用四甲基偶氮唑蓝法检测细胞对药物的敏感性,流式细胞仪检测肿瘤细胞的凋亡情况,非放射性免疫沉淀法检测PKB活性,Western-blot法检测Caspase-
【摘 要】高校教务部门的工作非常纷繁杂琐,既包括了学生的学籍考务管理、课程安排管理,还包括了各类考试成绩的统计排名分析等等。所有的这些工作都免不了要和许多数据打交道,对于高校教务部门来说,如果想要及时准确的处理好这些数据,仅仅依靠人工操作的话,不仅需要花费许多时间而且还容易出错,降低工作效率的同时还无形中增加了许多工作量;然而,如果我们能够很好的借助办公自动化软件来处理的话,许多困难便可以迎刃而解
一、医学统计软件  计算机技术不仅深入人们生活,而且在医学科研中的应用日渐广泛,已成为医学统计实现现代化的必备工具,极大地改善了医学统计中数据(或资料)收集、数据整理和数据分析手工操作的不足,节省了人力、物力和时间,提高了准确性,为科研、临床及预防工作提供了方便,促进了研究工作的发展。  如今全世界无论是医学研究机构、医院包括许多大高校都着力研究开发自己的医学统计软件,一定程度上,医学统计软件水平
摘 要:针对传统烘干熨衣机使用不便的现状,文中设计了一款智能烘干熨衣机。智能熨衣机由烘干部分、控制部分、熨烫部分组成,具有自动烘干潮湿衣物与自动熨烫烘干衣物等功能,市场前景广阔。  关键词:熨衣机;智能  1 主要功能  智能熨衣机具有自动烘干潮湿衣物与自动熨烫烘干衣物功能,如图1所示。  2 设备组成  智能熨衣机由烘干部分、控制部分、熨烫部分组成,如图2所示。  3 整体构架  设备的核心为烘
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
【摘 要】简要说明程序如何通过OPC 服务器接口读取PHD实时数据,并实现Excel读取实时数据库数据,具有行业应用价值。  关键词:PHD 实时数据库 OPC服务器 Excel VBA  一、前言  生产控制系统都存在大量的实时数据,这些数据都使用实时数据库存储和管理。查询都只能依靠厂家系统界面查询,如果需要对其数据导出并再综合应用,现有厂家系统与工具都无法实现。为此,研究实现Office Ex
【摘 要】本文结合当前高校普遍实施的学分制教学管理模式下考试管理的实际情况,针对安排考试过程中碰到的问题,研究并实现了一个考务管理系统。并将考务管理系统投入实际工作中运行,经过近五年的研究和实践,考务管理系统能够承担所有考试的安排工作,解决了一系列考务系统的问题,提高了工作效率。  【关键词】高等学校 考务管理 信息化建设  一、研究考务管理系统的必要性  当前高校普遍实施学分制教学管理模式,其特
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥