论文部分内容阅读
本文针对传统数据库中海量业务数据无法得到有效利用的问题,在ETL理论基础之上,提出了数据仓库项目中ETL问题的解决方案,主要研究了基于元数据的数据抽取、转换和加载以及数据清洗的方法,详细阐述了ETL技术在中国石油QHSE报告系统中的应用,具体内容包括:
1.QHSE报告系统为不同的业务数据源提供统一的数据接口规范,用于从各业务系统或工作环境中获取包含统计报表和多维分析信息的初始数据文件,合理运用数据实现跨越多平台多系统的数据整合;
2.针对没有相应的信息管理系统,报告系统使用.NET技术开发QHSE数据录入/导入系统,并运用XML技术实现不规则数据文件抽取;
3.校验初始数据文件,检查数据是否符合数据仓库系统要求的业务标准及数据的合法性,进行数据清洗,并生成相应的日志记录;
4.按照指定要求加载通过合法性校验的文件或数据行到数据仓库数据表,设计加载策略以提高ETL效率。
论文对ETL在数据仓库项目实施过程中的方法进行了总结,并提出下一步研究的重点。