论文部分内容阅读
【摘 要】随着计算机技术、网络技术的不断发展,人们将数据库进行加工,进而形成了数据仓库,数据仓库具有其独特的功能和作用,从数据仓库中可以准确、安全的提取出需要数据等。数据仓库的核心技术是ETL技术,本文针对基于数据仓库的ETL技术相关的内容进行研究分析。
【关键词】数据仓库 ETL技术 数据转换
随着科学技术的发展,数据库技术也在不断的发展,人们将数据库技术进行再加工,进而形成了数据仓库,数据仓库中的数据有不同的来源,进而形成了不同来源、不同形式的数据,这些数据需要对其进行管理,并对其质量进行维护等,ETL技术就是对数据进行处理管理的一种技术。本文针对基于数据仓库的ETL技术进行研究分析。
一、ETL技术
ETL是数据采集的简称,数据采集是由数据的抽取、转换、清洗、装载等组成的,数据采集是数据仓库构建中的重要内容,从数据源中抽取所需要的数据,然后对抽取到的数据进行清洗,将其按照一定的数据仓库的模型,放到数据仓库中。数据采集中的数据抽取其实就是数据源接口,数据源接口从不同的系统中抽取所需要的数据,将其作为数据仓库的输入数据,数据转换是对不同系统中生成的数据源进行处理,保证这些不同的数据源可以按照规定的要求输入到数据仓库中。数据清洗是对所有的数据进行处理,使得数据集中的所有数据值保持一致,并可以正确的对这些数据进行记录。
在一个企业的管理中,其管理人员都希望可以随时的获取所需要的数据和信息,所以就需要有这样一个系统,将这的外部数据和内部数据进行整理和储存方便查询。但是这些数据信息有不同的来源,具有数量、不清洁等诸多不良特点,进而不能直接对这些数据进行使用,也不能直接将这些数据输入到数据仓库中,所以需要对这些数据先进行处理分析,然后再将这些数据以高质量输入到数据仓库中供用户的使用。
ETL在数据仓库中具有非常重要的位置,数据仓库其实就是一个独立的数据环境,它需要从不同的系统中抽取所需要的数据,然后通过ETL将这些数据进行处理,处理过后的数据信息才可以安全的输入到数据仓库中。ETL技术主要涉及到互连、复制、转换、监控等方面的内容,在数据仓库中的数据不需要和处理系统中、或者其他相关系统中的数据保持同步,所以ETL中的数据抽取可以定时的进行,但是ETL的成功与否,关系到数据仓库中信息有效性。
二、ETL系统的设计
数据仓库是为了实现数据的存储、检索以及表达,例如当数据仓库中的数据需要从一种形式转换成另一种形式时,ETL的数据转换就需要进行考虑,同时ETL中的数据抽取、转换、装载等都需要变成转换操作,所以对于数据仓库而言数据转换是其核心部分。
我们对ETL中的数据转换进行分析研究,将数据的转换看成是转换活动,在数据转换的过程中,将数据由一种形式转换成另一种形式,源数据和目标数据都是数据转换中的元素,这些数据转换元素可以是任何形式的数据元素,可以是图,也可以是表,ETL的数据转换可以是一个数据目标由一个数据源进行转换,也可以是一个数据目标由多个数据源进行转换,而且数据转换也可以在其转换过程中生成不同的临时数据。当ETL数据转换在进行一个转换活动时,其可以按照一定的转换步骤,将此次转换进行定义为确定性或者不确定性。
三、ETL技术操作
ETL技术具有非常强大的功能,而ETL技术的各项功能很大程度上是由其数据转换规则的完整、健全决定的。经过对ETL技术以及相关的数据进行分析研究发现,数据仓库中的数据以及其数据源都是采用数据库的方式进行储存的,数据转换规则均是针对和数据仓库、数据源等相关的数据库而定的,而且这些数据转换规则采用的是开放式的管理方法,用户可以在这些规则的基础上,对自己所需的数据进行简单的转换或者复杂的转换,还可以通过转换组合的方法,实现数据转换的目的。其中最为常见的ETL技术操作有:
(一)数据仓库中数据有效性检查
为了将数据冗余等问题进行避免,在抽取的数据进入到数据仓库之前,需要对其进行有效性检查,这项工作在数据仓库数据输入中非常重要,如果没有对这些即将输入到数据仓库的数据进行有效性检查,就会对整个数据仓库的完整性产生破坏,或者将其破坏的几率大大的增加。对数据进行有效性检查最好的方法就是源系统。在源系统中有专业的和非专业的技术知识人员,但是数据有效性检查是一项费时又不可省略的一个环节,所以可以进行自动化的检查。
(二)数据的清除
ETL技术进行的数据有效性检查是对数据进行标准给定的过程,如果数据的给定没有在界定的范围之内,那么它就是需要清除的对象。数据的清除包括了在给定界限范围之外的数据,对这些数据采取一定的纠正措施。
(三)将数据格式化
我们知道数据仓库中的属数据来自不同的数据源,这些数据源可能出现的不同的平台上,有不同的操作系统,所以这些数据会以不同的形式输入到数据仓库中。如何将这些数据加载,是数据仓库建立中需要考虑的一个问题,在进行数据迁移的过程中,会将数据以一种适合数据仓库的格式转入数据仓库中,这就是数据的格式化,对数据的处理是数据仓库成功建立的关键,所以在数据提取的过程中,对数据进行格式化,从操作中实现数据资源的共享。
数据库技术的发展得到延伸,在此基础上进行再加工,进而形成了数据仓库,但是数据从不同的系统进入到数据仓库之前需要进行检查、处理,这样才可以保证数据仓库的完整性和安全,ETL技术是基于数据仓库的一种数据处理技术,在数据进行数据仓库之间,进行处理检查,使数据的格式满足数据仓库需求,虽然ETL技术还有待改进,但是其在数据仓库中起到的作用不可忽视。
参考文献:
[1]刘繁艳.基于数据仓库的ETL技术研究[J].软件导刊. 2007(06):30-31
[2]白果,贾玉文.数据仓库中ETL技术的研究与改进[J].甘肃科技.2012(10):62-63
[3]金明.企业数据仓库的ETL技术[J].电力信息化. 2010(09):44-45
【关键词】数据仓库 ETL技术 数据转换
随着科学技术的发展,数据库技术也在不断的发展,人们将数据库技术进行再加工,进而形成了数据仓库,数据仓库中的数据有不同的来源,进而形成了不同来源、不同形式的数据,这些数据需要对其进行管理,并对其质量进行维护等,ETL技术就是对数据进行处理管理的一种技术。本文针对基于数据仓库的ETL技术进行研究分析。
一、ETL技术
ETL是数据采集的简称,数据采集是由数据的抽取、转换、清洗、装载等组成的,数据采集是数据仓库构建中的重要内容,从数据源中抽取所需要的数据,然后对抽取到的数据进行清洗,将其按照一定的数据仓库的模型,放到数据仓库中。数据采集中的数据抽取其实就是数据源接口,数据源接口从不同的系统中抽取所需要的数据,将其作为数据仓库的输入数据,数据转换是对不同系统中生成的数据源进行处理,保证这些不同的数据源可以按照规定的要求输入到数据仓库中。数据清洗是对所有的数据进行处理,使得数据集中的所有数据值保持一致,并可以正确的对这些数据进行记录。
在一个企业的管理中,其管理人员都希望可以随时的获取所需要的数据和信息,所以就需要有这样一个系统,将这的外部数据和内部数据进行整理和储存方便查询。但是这些数据信息有不同的来源,具有数量、不清洁等诸多不良特点,进而不能直接对这些数据进行使用,也不能直接将这些数据输入到数据仓库中,所以需要对这些数据先进行处理分析,然后再将这些数据以高质量输入到数据仓库中供用户的使用。
ETL在数据仓库中具有非常重要的位置,数据仓库其实就是一个独立的数据环境,它需要从不同的系统中抽取所需要的数据,然后通过ETL将这些数据进行处理,处理过后的数据信息才可以安全的输入到数据仓库中。ETL技术主要涉及到互连、复制、转换、监控等方面的内容,在数据仓库中的数据不需要和处理系统中、或者其他相关系统中的数据保持同步,所以ETL中的数据抽取可以定时的进行,但是ETL的成功与否,关系到数据仓库中信息有效性。
二、ETL系统的设计
数据仓库是为了实现数据的存储、检索以及表达,例如当数据仓库中的数据需要从一种形式转换成另一种形式时,ETL的数据转换就需要进行考虑,同时ETL中的数据抽取、转换、装载等都需要变成转换操作,所以对于数据仓库而言数据转换是其核心部分。
我们对ETL中的数据转换进行分析研究,将数据的转换看成是转换活动,在数据转换的过程中,将数据由一种形式转换成另一种形式,源数据和目标数据都是数据转换中的元素,这些数据转换元素可以是任何形式的数据元素,可以是图,也可以是表,ETL的数据转换可以是一个数据目标由一个数据源进行转换,也可以是一个数据目标由多个数据源进行转换,而且数据转换也可以在其转换过程中生成不同的临时数据。当ETL数据转换在进行一个转换活动时,其可以按照一定的转换步骤,将此次转换进行定义为确定性或者不确定性。
三、ETL技术操作
ETL技术具有非常强大的功能,而ETL技术的各项功能很大程度上是由其数据转换规则的完整、健全决定的。经过对ETL技术以及相关的数据进行分析研究发现,数据仓库中的数据以及其数据源都是采用数据库的方式进行储存的,数据转换规则均是针对和数据仓库、数据源等相关的数据库而定的,而且这些数据转换规则采用的是开放式的管理方法,用户可以在这些规则的基础上,对自己所需的数据进行简单的转换或者复杂的转换,还可以通过转换组合的方法,实现数据转换的目的。其中最为常见的ETL技术操作有:
(一)数据仓库中数据有效性检查
为了将数据冗余等问题进行避免,在抽取的数据进入到数据仓库之前,需要对其进行有效性检查,这项工作在数据仓库数据输入中非常重要,如果没有对这些即将输入到数据仓库的数据进行有效性检查,就会对整个数据仓库的完整性产生破坏,或者将其破坏的几率大大的增加。对数据进行有效性检查最好的方法就是源系统。在源系统中有专业的和非专业的技术知识人员,但是数据有效性检查是一项费时又不可省略的一个环节,所以可以进行自动化的检查。
(二)数据的清除
ETL技术进行的数据有效性检查是对数据进行标准给定的过程,如果数据的给定没有在界定的范围之内,那么它就是需要清除的对象。数据的清除包括了在给定界限范围之外的数据,对这些数据采取一定的纠正措施。
(三)将数据格式化
我们知道数据仓库中的属数据来自不同的数据源,这些数据源可能出现的不同的平台上,有不同的操作系统,所以这些数据会以不同的形式输入到数据仓库中。如何将这些数据加载,是数据仓库建立中需要考虑的一个问题,在进行数据迁移的过程中,会将数据以一种适合数据仓库的格式转入数据仓库中,这就是数据的格式化,对数据的处理是数据仓库成功建立的关键,所以在数据提取的过程中,对数据进行格式化,从操作中实现数据资源的共享。
数据库技术的发展得到延伸,在此基础上进行再加工,进而形成了数据仓库,但是数据从不同的系统进入到数据仓库之前需要进行检查、处理,这样才可以保证数据仓库的完整性和安全,ETL技术是基于数据仓库的一种数据处理技术,在数据进行数据仓库之间,进行处理检查,使数据的格式满足数据仓库需求,虽然ETL技术还有待改进,但是其在数据仓库中起到的作用不可忽视。
参考文献:
[1]刘繁艳.基于数据仓库的ETL技术研究[J].软件导刊. 2007(06):30-31
[2]白果,贾玉文.数据仓库中ETL技术的研究与改进[J].甘肃科技.2012(10):62-63
[3]金明.企业数据仓库的ETL技术[J].电力信息化. 2010(09):44-45