ETL若干关键技术研究

被引量 : 0次 | 上传用户:wi7474974
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
ETL过程在数据仓库的建设与维护中占据了相当重要的位置,用于将数据源的数据经抽取、转换后,装载入数据仓库中。降低ETL过程设计、维护代价以及提高ETL过程的执行效率,可以有效降低数据仓库的建设和维护代价,这是本文研究的目标。设计完成的ETL过程可能需要更改,便于修改的增量ETL过程维护代价就低,这与描述ETL过程的模型有关。ETL过程中,增量ETL过程的设计代价最高,基于数据仓库是建立在远程数据源上的物化视图集合的观点,全量ETL过程是这些物化视图的定义,增量ETL过程则是其增量维护的过程,则可以利用已有物化视图增量维护的方法,根据全量ETL过程来生成增量ETL过程。但是ETL过程还包括了数据清理和异构数据转换,这是传统的关系模型所无法描述的。完整的扩展ETL过程不仅包括将正确的数据装载到数据仓库中,还需要将数据源中的错误数据进行修正,提高逆向数据清理的执行效率同时也就提高了ETL过程的执行效率。本文工作的主要贡献和研究内容如下:1.给出了一个用于描述ETL过程的模型,称为ETL过程树,将异构数据转换、数据清理与查询树结合。ETL过程树中数据清理规定只作用于单个关系节点,当修改ETL过程树中的数据清理规则时,不会对ETL过程树本身产生影响,降低了ETL过程的维护代价。2.给出了差运算物化视图的增量维护的方法,给出了SRA和BRA两种增量维护方法,并讨论了增量的大小对这两种方法执行效率的影响。3.在前两点的研究基础上,给出了根据描述全量ETL过程的ETL过程树自动产生增量ETL过程的算法,从而降低ETL过程的设计总代价。4.利用已有数据血统查询的方法,同时考虑增量ETL过程中错误数据只出现于插入增量中的特性,给出了在增量ETL过程上进行错误数据逆向查询的算法,提高了逆向数据清理的效率。
其他文献
鲍曼的表演理论,反思并改变了民俗学研究的眼光与方向,推动了民俗学的研究范式从以"民间文学文本"为中心,向着以"表演性日常交流实践方式"为中心转变。中国民俗学近几十年来
当今由于我国经济的快速发展,这些年在建筑行业的利好形势发展下,逐步增加了城市化发展进程,使得在建设上的资源用地在很多情况下日益缺乏,因此在这一层次高层建筑上正好符合
人本主义学习理论是以学生为中心,提倡意义学习的系统理论。借鉴人本主义学习理论,"思想道德修养与法律基础"课教学运用互动式教学模式,教学实效性更强。互动式教学模式分为观
目的探讨室管膜下巨细胞星形细胞瘤(SEGA)的临床病理特征、免疫组化表达及其鉴别诊断.方法分析两例室管膜下巨细胞星形细胞瘤的临床特点,和常规HE染色及IHC表达特点.结果SEGA
本文就现有手术室气流组织下,以如何对气流组织进行改进,提高手术室的洁净度为主要研究工作。首先,对北京市某甲级医院手术室进行了现场测试。对各参数的检测方法以及检测合
客户关系管理是企业根据客户的消费爱好、需求提供针对性的服务,从而提高客户的满意度和忠诚度,吸引和保持更多客户的一种管理模式。客户关系管理近年被引入我国地产行业,实施的
许筠(1569—1618)是朝鲜朝中期著名的文学家、诗歌批评家、中朝文化交流史上的重要人物、朝廷官员、著名的“异端”。许筠是当时朝鲜朝社会环境和中国中晚明文化影响共同作用
近年来,我国高速公路、城市交通、铁路都有了突飞猛进的发展,铺设了许多高速公路和高等级公路,初步构成了由城市主干道、地方公路、高速公路等不同级别的公路组成的辐射全国
近几年来,高等教育进入了快速发展的轨道,随着"精英教育"向"大众教育"的转变,扩招成为必然。扩招使得众多高校必须进行大规模的新校区建设,以满足学生人数增加所带来的改善住宿条
随着我国经济建设及发展步伐的加快,现在我国已经进入经济发展新常态时期。企业所面临的竞争压力不断增大、市场门槛不断提高,企业想要获得更好发展就必须不断提升自己的经营