基于数据仓库的ETL及OLAP的理论研究

被引量 : 0次 | 上传用户:alex709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库是存储海量数据的仓库,一方面建立数据仓库必须经过ETL(Extracting\Transiting\Loading)过程处理以得到较全面的、准确的、高质量的数据,为决策工作提供质量保证;另一方面对数据仓库中存储的大量数据的查询访问需借助高效的OLAP(On-Line Analytical Processing)工具得以更全面灵活的展现。本文在ETL过程方面主要研究了对ETL过程的优化处理及相似重复记录的检测方法的改进。针对目前数据仓库中出现的新问题——数据量巨增导致的相似重复数据成为影响现代数据仓库质量的一大隐患,而如果仍沿用传统的ETL过程来应对这种新情况则会出现阶段任务不明晰,存在大量重复工作,所得数据质量不高等问题。针对这种情况,本文提出了一个优化ETL过程的框架EICLF(Extracting\Integrating\Cleaning\Loading\Feedback)流程,将传统的ETL过程中的转换阶段的任务分解为两步——集成阶段和清理阶段,以提高进入到数据仓库中的数据质量。针对目前数据仓库中的ETL过程中没有对产生错误数据的源数据的反馈过程,本文将数据反馈引入进来使整个ETL过程更完善。另外,本文对相似重复记录进行了研究,分析了目前的几种常用算法,如嵌套循环法NL、多趟邻近排序法MPN、位置代码法PCM,并在此基础上提出了一种改进的算法——记录分组法,即选择最优字段进行分组排序,这样可以在更大程度上聚集相同记录离散不同记录的目的。实验证明,经过EICLF过程处理后的数据可以在一定程度上提高其数据质量。在OLAP方面,本文研究了目前常用于提高数据仓库查询性能的两种索引技术——B-Tree索引和位图索引,对两者进行了比较分析,指出其局限性,并对位图索引所遇到的瓶颈进行了分析,进而提出一种位图索引的扩展形式——标识符索引,并对位图索引和标识符索引进行了性能比较,证明其优越性。相信本文所做的工作对数据仓库的建立及展现的研究有一定的借鉴作用。
其他文献
出版塑造着民族的品格,编辑塑造着出版物的品格。新闻出版业是党的宣传思想舆论主阵地,是传播社会主义核心价值观的主渠道,是建设社会主义文化强国的主力军。而编辑作为出版
现代信息化技术的发展,带动了图书馆在自动化、网络化和数字化方向的进步。但馆藏文献,尤其是传统的纸质文献,仍然是图书馆基础的资源体系和提供服务的最主要方式和内容。目
2000年,教育部做出了《关于加强高等学校思想政治教育进网络的若干意见》的决定。近年来,许多有条件的高校“主动占领网络思想政治教育新阵地”,建设了一批“融思想性、知识
语言是人类最重要的交际工具,是人与人之间传递信息、交流情感的重要手段。俄语富于形态变化,词在句中的功能主要通过词形表达出来,词序只起辅助作用,因此俄语词序有很大的自
随着Internet的发展和后PC时代的到来,嵌入式系统成为当前IT产业的热点之一,呈现了巨大的市场需求。ARM(Advanced RISC Machines)公司的32位RISC处理器,以其高速度、低功耗、
我国大中型露天矿山众多,规模宏大,占地面积广,其设计最终边坡高度一般为300—500m,有的甚至达到700m。随着露天矿山开采深度的增加,边坡高度逐年加大,逐步形成高陡露天边坡,
课题来源:北京市科委重大项目课题“利用个体化信息采集平台评价中医药延缓糖尿病血管并发症疗效的研究”任务书编号:H020920010330目的:1.通过结构化病历采集系统采集临床数
党的十七届三中全会通过的《中共中央关于推进农村深化改革发展若干重大问题的决定》,勾勒出新一轮农村深化改革持续发展的方向和路径:即以积极创新农村制度为基础,以发展现
[目的/意义]基于文本挖掘技术自动发现更具代表性的文献内容主题词,通过定位主题词在章节中的具体位置,并基于可视化技术进行主题标引,帮助读者直观高效发现文献主题间的潜在
生育理论通常认为生育意愿对生育水平发展趋势的预测具有举足轻重的作用,生育水平的普遍降低与人们的生育意愿密切相关,社会经济的发展和价值观念的变迁决定人们理想的子女数