面向数据集成的数据清理关键技术研究

被引量 : 0次 | 上传用户：huishou2088

【摘要】

：

数据集成是把不同来源、不同格式、不同语义的数据在物理上或逻辑上有机地集中,从而提供一个统一视图的过程。数据集成需求持续增长,但是因为数据集成环境复杂,数据的完整性

【作者】

：

刘杰

【发表日期】

：

2010年期

【关键词】

：

数据集成数据质量完整性约束数据仓库数据清理性能优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据集成是把不同来源、不同格式、不同语义的数据在物理上或逻辑上有机地集中,从而提供一个统一视图的过程。数据集成需求持续增长,但是因为数据集成环境复杂,数据的完整性、一致性、准确性难以保障,数据质量问题导致企业大量数据集成项目延期完成,并大大增加项目成本。数据质量工具成为企业数据管理不可或缺的组成部分,数据质量保障也一直是计算机科学重要的研究领域。完整性约束支持用户采用声明式语言定义数据要满足的依赖关系,同时支持约束之间的蕴含推理,在经典关系数据库研究中,完整性约束一直被用来保证数据库模式的正确性。如何以完整性约束理论为基础,来推理和挖掘数据清理规则并保证数据的一致性,是数据质量保障一个新的热点问题。本文在数据集成场景中研究这一问题,提出新的方法实现自动化高效地检测和清理不一致数据。首先,本文原创性地研究如何在数据集成流程设计完成后,根据目的端的质量约束推理源端需要满足的质量约束从而在源端进行异常数据检测。在数据集成流程中,数据源端的数据经过流程处理后,可能会将违反目的端的完整性约束,导致不成功的加载或者成为目的端数据库中的脏数据,因为数据量大,而且可能存在远程的数据传输,通过执行调试的方法来定位问题数据的代价太大。本论文中提出反向约束传播(Backwards Constraint Propagation,BCP)的方法,首先将数据集成流程建模为有向无环图,它自动将目的端数据库的完整性约束沿着数据流反方向,向数据源端推理,得到的数据源的完整性约束可以用来检测异常数据从而指导设计者进行异常数据过滤或改进流程设计。文中采用一阶逻辑定义并证明面向基本关系代数操作的约束传播规则,并定义约束传播规则支持采用属性映射和元组映射两个抽象操作标注的复杂数据操作,使BCP可以支持大多数类型的数据操作。案例分析及实验表明该方法可以有效辅助捕获异常数据并提高数据集成流程的设计效率。其次,本文提出基于NULL修复的一致性查询方法,支持对不一致数据源在查询时过滤不一致的属性信息。当多个数据源的数据集成后,因为缺乏足够的辅助信息进行清理,还可能存在大量违反完整性约束的数据。一致性查询技术(Consistent Query Answering,CQA)研究如何在查询时采用虚拟修复的方法获取一致的结果,但已有的方法大多基于元组删除的修复语义,可能导致信息丢失,而且对于大多数约束求解CQA是NP问题。我们将约束类型限制在属性级,即只有违反约束的属性为不一致信息,并提出基于NULL的修复语义,将所有不一致属性使用NULL替换得到虚拟修复。当进行NULL修复后可能会产生新的不一致属性,针对该问题提出约束扩展算法,来查询定位所有可能的不一致属性。基于NULL修复语义,给出了SQL重写算法来实现CQA。文中对不一致属性定位算法与SQL重写方法进行了实验与性能分析,表明该方法的计算复杂度与数据库规模、不一致数据比例、查询的类型都是线性关系。接着,本文研究如何基于流程重构实现数据清理流程性能优化,并研究如何将该方法推广应用于web数据mashup。随着数据量飞速的增长,性能成为数据清理的瓶颈,如果对数据清理流程的逻辑模型进行优化,可以在不增加资源的情况下获取性能的提升。本文研究了通用的数据清理流程的逻辑优化框架,通过对流程进行语义等价的结构变换生成备选流程,并预测各备选流程的执行代价选择最优的流程。支持对操作组件标注其操作语义的特征属性,定义特定领域的流程变换规则,同时提出基于流程代价相对关系来构建代价偏序图,提高流程选择的精确度。为了表明该框架的适用性和有效性,将其应用到web数据Mashup工具中进行案例分析,并通过实验表明可以有效降低mashup的响应时间。最后,本文研究实现了模型驱动的数据集成流程的开发平台OnceDQ,并在其上对提出的数据清理新技术进行了实现和应用。该平台基于Eclipse插件机制实现数据操作组件的可扩展性,支持用户自定义操作组件和数据源接口,采用代码生成工具将用户设计的流程自动生成平台独立的Java代码,可以跨平台部署。

其他文献

模因论视角下的MTI笔译教学现状与思考——以某省三所大学MTI笔译教学为例

本文以模因论为理论视角，以某省三所大学MTI笔译教学为研究对象，对当前MTI笔译教学现状进行了梳理分析，认为MTI笔译教学除了要关注学生翻译能力的培养，更要关注翻译的速度与效率

期刊

模因论MTI笔译教学

数据挖掘在证券投资成本分析中的运用研究

证券市场是一个非常活跃的市场,有众多的参与者,每天达成无数的交易,涉及巨额的资金,同时产生了海量的数据。数据挖掘技术凭借其在数据分析上的优势正逐步应用于证券市场数据

学位

数据挖掘交易成本隐式成本logistic回归概率分类交易优化证券投资

文本、策略与质量

作为学术论文的重要组成部分,不仅为整篇文章的数据检索提供便利,同时也有利于读者快速判断该文章的可读性。英文摘要作为国际学术交流的重要纽带,近年来越来越受到学者们的

学位

摘要英译文本策略质量分析

扶贫绩效研究

贫困是一地区、国家经济、文化、社会等各方面落后的总称。它是由人们自身收入低下造成的一种自身生活必须物品匮乏,相应服务设施不足,以及缺乏相应的发展机会的一种生活状况

学位

扶贫扶贫绩效评估

“一带一路”沿线国家与我国对外汉语教育合作研究

加强"一带一路"沿线国家与我国对外汉语教育合作是适应"一带一路"发展的现实需要,是践行文化自信道路的有效手段。促进文化教育繁荣发展是对外汉语教育合作的基本理论逻辑。"

期刊

“一带一路”对外汉语教育国际合作

浅析人的全面发展与当代中国教育

人的全面发展问题,一直都是马克思主义研究者所关心和关注的重要课题。人的全面发展,包括了人与人的和谐发展、人与社会的和谐发展、以及人和自然的和谐发展等多方面的内容。

学位

人的全面发展教育弊端对策

三辨诊疗模式在子宫内膜异位症的应用研究

子宫内膜异位症(内异症)是育龄期妇女的常见病、多发病,本病病因多端,病机多样,病情复杂,病势顽固,其严重影响患者的生活质量,发病率逐年上升。中医古籍对本病无专门记载,主

学位

中医妇科三辨诊疗模式子宫内膜异位症基本证候要素

低分子量水溶性酚醛树脂的合成与改性

酚醛树脂以其独特的性能应用于诸多领域,其作用是其它树脂所无法替代的。普通的酚醛树脂不溶于水,只溶于部分有机溶剂,而酚醛树脂又必须以溶液的形式用于涂料工业和层压塑料

学位

酚醛树脂水溶性低分子量己二酸

现行公共自然资源特许经营制度缺陷及其突破路径

现行中国诸多公共自然资源已经面向市场,从而形成所有权、经营权分离的产权模型,为确保资源利益的公共性、效益化,我国对上述资源之开发、利用借鉴了特许经营制度,通过颁发资

期刊

公共自然资源特许经营制度缺陷突破路径

写作,为梦想续航

<正>"你都评上高级了,还那么拼干啥?!"很多人对我的做法感到疑惑和不解,时常有人这样问我,有的比较含蓄的虽然嘴上不说,眼神却出卖了想法,同样的问题充斥了他们的心间。在特

期刊

智障想法

面向数据集成的数据清理关键技术研究

其他学术论文