论文部分内容阅读
数据仓库是存储海量数据的仓库,一方面建立数据仓库必须经过ETL(Extracting\Transiting\Loading)过程处理以得到较全面的、准确的、高质量的数据,为决策工作提供质量保证;另一方面对数据仓库中存储的大量数据的查询访问需借助高效的OLAP(On-Line Analytical Processing)工具得以更全面灵活的展现。本文在ETL过程方面主要研究了对ETL过程的优化处理及相似重复记录的检测方法的改进。针对目前数据仓库中出现的新问题——数据量巨增导致的相似重复数据成为影响现代数据仓库质量的一大隐患,而如果仍沿用传统的ETL过程来应对这种新情况则会出现阶段任务不明晰,存在大量重复工作,所得数据质量不高等问题。针对这种情况,本文提出了一个优化ETL过程的框架EICLF(Extracting\Integrating\Cleaning\Loading\Feedback)流程,将传统的ETL过程中的转换阶段的任务分解为两步——集成阶段和清理阶段,以提高进入到数据仓库中的数据质量。针对目前数据仓库中的ETL过程中没有对产生错误数据的源数据的反馈过程,本文将数据反馈引入进来使整个ETL过程更完善。另外,本文对相似重复记录进行了研究,分析了目前的几种常用算法,如嵌套循环法NL、多趟邻近排序法MPN、位置代码法PCM,并在此基础上提出了一种改进的算法——记录分组法,即选择最优字段进行分组排序,这样可以在更大程度上聚集相同记录离散不同记录的目的。实验证明,经过EICLF过程处理后的数据可以在一定程度上提高其数据质量。在OLAP方面,本文研究了目前常用于提高数据仓库查询性能的两种索引技术——B-Tree索引和位图索引,对两者进行了比较分析,指出其局限性,并对位图索引所遇到的瓶颈进行了分析,进而提出一种位图索引的扩展形式——标识符索引,并对位图索引和标识符索引进行了性能比较,证明其优越性。相信本文所做的工作对数据仓库的建立及展现的研究有一定的借鉴作用。