数据仓库环境中面向数据质量的ETL<'Q>的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:jwc4542
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库中数据质量问题直接影响后续的统计、分析和决策。ETL工具是提高数据质量的关键一环。传统的ETL产品和现有的原型系统对数据质量问题中的拼写错误与重复记录处理等比较核心的问题支持不足,虽然有的商业产品通过特定的接口借助第三方工具进行数据清洗,但是容易造成事实的(defacto)数据质量的事后(Reactive)处理效果。如何在ETL过程中提高数据质量成为数据仓库研究和应用中迫切需要解决的问题。 本文在深入分析国外相关领域的研究工作的基础上,设计与实现面向数据质量的ETLQ,ETLQ支持预先(Proactive)处理数据质量问题的策略,将提高数据质量的清洗技术与ETL过程动态地结合,在数据流动过程中提供一种清洗技术,提高入库数据的准确性、标准性和一致性,降低错误或重复数据加载入库的可能性。 具体来讲,本文主要的研究内容和成果如下: ■提出了在数据仓库环境中面向数据质量设计ETL系统的新策略——预先而非事后处理的策略。本策略通过质量因子(简单质量因子与复杂质量因子LookupQ和ClusteringQ)在数据录入与集成两个层面进行相关的数据质量的改善处理; ■提出了新的相似函数的构造方法。利用q-gram符号化技术、编辑距离、TF-IDF加权模式和向量的cosine等传统概念与技术的特点为构造相似函数提供了新的实现思路,能准确地度量实体(元组或某些字段集)之间相似程度; ■设计与实现了高效的质量因子的实现方法。本文使用标准SQL语句实现质量因子,从而利用RDBMS的强大查询引擎的优化性能和数据存储管理功能,满足仓库环境中大数据量的处理要求。同时,利用标准关系表实现快速检索的“索引”表,加速相似匹配的查找过程,为高效实现LookupQ与ClusteringQ复杂质量因子奠定基础。 基于以上的设计思路与理念的技术,已经在实际的项目中实现。通过应用证明,ETLQ能够适应政府与企业信息化建设中的数据集成项目的需求,在对数据进行抽取、转换的同时,将清洗后准确的、一致的和及时的数据加载入目标存储区中。
其他文献
需求演化是软件项目中出现最频繁、对软件开发影响最大的风险之一。频繁的需求演化会造成软件质量下降、进度延期或成本超支等严重后果,而组织良好的需求演化能够有效的提高软
自从博弈论(GameTheory)诞生以后,由于其解决对策、决策问题的指导性,许多学科领域都引入了博弈论的思想。而博弈论中Nash均衡的思想也成为解决许多策略选择问题重要依据和途径
共享软件是以“先使用后付费”的方式销售的享有版权的软件。共享软件在未注册之前通常会有一定的功能限制,如使用时间限制、次数限制、功能不完全等。用户在试用共享软件认为
随着Internet和数字技术的发展,网络成为人们获取和传播数字信息的重要途径。保护数字内容的版权,对网络出版和数字内容网络传播极其重要。本文在分析现有数字版权管理典型体系
本文以UML建模语言家族的元模型为研究背景,围绕“如何有效地定义和评估元模型的质量”这一主线,首次提出UML建模语言家族的元模型质量模型,为元模型的质量要素给出分级定义并确
本文研究了基于TSP问题的蚁群算法优化及并行策略,全文主要内容如下:  首先,简要介绍了几种启发式算法并引出蚁群算法,并对蚁群算法基本原理、几种算法模型和相应的数学公式作
随着电子商务和B2B应用的不断发展,应用程序之间通讯的需求越来越大,Web服务得到了极大的发展。Web服务简化了复杂的软件应用方式,为分布环境下资源共享与协同工作提供了很好的
为了解决软件危机中的问题,软件工程研究者们从传统工业生产中吸取经验并作了许多有益的尝试,软件测量就是其中之一。 软件测量将测量引入软件生产,通过测量软件开发过程中各
随着电子邮件的广泛应用,邮件的安全问题引起了广泛关注。传统电子邮件进行的是明文传输,容易受到攻击者的窃听和篡改,无法满足用户的安全需求。采用密码安全技术加强对电子邮件
随着互联网的飞速发展,在实际网络应用中存在一种商业应用模式:网站联盟。这种联盟通常由一个大型网站和若干小型加盟合作站点所组成,形成一组特殊的、松散的应用系统。单点登录