论文部分内容阅读
针对MapReduce缺少对ETL上层数据模型的具体描述,提出了一种集成的基于MapReduce的分布式ETL(MapReduce Distributed ETL,简称MDETL)多维数据模型处理方法其,把对数据的处理分解成对数据属性(维和事实)的处理,解决了ETL上层具体数据模型的构建问题。用真实的数据集评估了它的性能,实验结果表明MDETL具有很好的可扩展性。