面向数据集成的数据质量控制系统设计与实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：ss22ss33

【摘要】

：

数据集成技术为企业解决跨多平台，异构数据的集成问题提供了一条解决途径。数据集成系统可以把企业内部的各种相关数据资源进行集成、共享，为消除信息孤岛，也为企业的信息资源规

【作者】

：

汤国华

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2007年期

【关键词】

：

数据质量控制系统数据集成模式集成数据清洗

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据集成技术为企业解决跨多平台，异构数据的集成问题提供了一条解决途径。数据集成系统可以把企业内部的各种相关数据资源进行集成、共享，为消除信息孤岛，也为企业的信息资源规划提供了可能。数据集成过程是一个从分布的数据源(包括数据库、应用系统等)抽取数据，进行转换、集成和传输，以目标系统希望的数据形式加载到目标系统中的过程。在此过程中，数据质量控制是一个至关重要的基本组件和功能，它对“脏”数据进行屏蔽，防止“脏”数据进入目标系统，同时负责解决数据源之间模式关联和映射问题。在实际的数据集成过程中如果缺少对数据质量的有效控制，常常会导致集成过程的失败。 “如何根据数据集成的特点，设计面向数据集成的数据质量控制系统，减少数据集成中的数据质量问题”是论文研究的重点。论文首先从数据集成过程的特点出发，讨论了数据集成过程中数据质量控制的特点和难点，确立了本论文关于数据集成中数据质量控制的研究方向，即：分别从模式集成和实例数据清洗两个方面进行数据质量控制问题研究。论文分别在模式集成和实例数据清洗两个层面提出了自动化和基于规则相结合的数据质量控制策略。在模式集成的研究中，论文提出了一种模式自动匹配算法用来辅助进行模式集成，并将模式转换和模式冲突检测结合到模式集成过程中。在实例数据清洗研究中，提出基于统计分析的异常数据自动检测方法。同时，提出了一种针对中文的相似重复记录的检测算法，能够有效地检测多语言的相似重复记录。在上述研究基础上，论文提出了基于规则的数据质量控制策略，通过用户自定义的模式集成规则、实例数据清洗规则，解决更多的模式冲突问题，提高实例数据清洗的准确率。最后，本文针对OnceDI 3．0中的数据集成模型和OnceDI 3．0体系结构设计了OnceDI 3．0数据质量控制子系统，在设计中通过设计模式的应用增加系统的可扩展性。

其他文献

网格信息服务Agent会话策略研究

网格被誉为继Internet和Web之后的第三次信息技术浪潮，借鉴了现有的电力网的思想，它试图实现互联网上所有资源的连通，即把整个互联网整合成一台巨大的超级计算机，包括计算资源、

学位

网格Agent本体会话策略OWL

使用可调ADM的全光网络任务调度问题研究

全光传输网络以其稳定性好和传输容量大等优点，正迅速成为带宽需求较大的下一代通信网络主要发展方向之一。基于波分复用(Wavelength DivisionMultiplexing-WDM)技术，可以在一

学位

全光传输网络通信网络任务调度波分复用可调ADM

冷轧板材生产中动态调度排产系统的研究与实现

生产调度是冷轧板材生产的枢纽,调度的合理性、准确性、及时性都直接影响了整个生产组织有序性、连续性、产能高低、产品质量好坏,以及企业应对市场变化的能力高低。在信息技

学位

生产调度优化排产MES生产计划

基于R-树索引的空间数据库引擎设计与实现

近年来，随着计算机的普及和Intemet的飞速发展，地理信息系统在房地产管理、汽车GPS自动导航、三维虚拟现实仿真等领域得到广泛应用，并具有越来越大的市场。这些应用都需要空间数

学位

空间数据库R-树缓冲管理空间查询数据库引擎房地产管理三维虚拟现实

基于承载网的服务放置与服务选择问题的研究

随着各种覆盖网系统规模和数量的剧增，它们独立探测底层网络性能对网络资源造成的浪费，以及独自选路导致的路由抖动和不公平性等问题日渐受到人们的重视。承载网(Underlay)是为

学位

覆盖网承载网服务放置服务选择最大流

开放网络中的信任问题研究

随着计算机网络和通信技术的飞速发展，网络环境已经从早期相对静态的、面向特定组织和用户群体的封闭网络，转变为可公共访问的、面向大量动态用户的开放网络，其主要应用领域包括

学位

开放网络信任模型主观Bayes方法证据推理信号博弈信息过滤

基于反馈机制的流数据查询

流数据查询是流数据处理中一个非常重要的研究领域，由于流数据到来的快速性和大量性等特点，必须及时地对流数据进行处理，流数据的输入速率突然剧增会使查询系统发生过载，将严重影

学位

流数据负载卸载时间粒度反馈树

基于演化算法的连通子图挖掘方法研究

随着数据挖掘研究的深入，越来越多的问题呈现在我们面前，也提出了更高的要求。当前，复杂类型数据的挖掘需求上升，专家学者开始关注这方面的新应用和理论研究，并试图利用结构化数据

学位

图挖掘连通子图演化算法对象层次搜索数据挖掘

一种改进的DNA计算模型研究

DNA计算以其海量存储和并行运算能力,从理论上可克服电子计算机存储量与运算速度上的不足,成为NP完全问题和其它难解问题的潜在解决方案之一,并且在理论上已成功的在多项式时

学位

DNA计算并行计算分治法NP完全问题子集和问题可满足性问题

面向软件自适应演化中的强化学习方法的研究

在金融管理、空中交通管制、通信网络管理等领域存在很多复杂问题,单个Agent解决不了,因为资源或者能力有限,而多Agent系统提供了解决这些问题的可能。但随着科学技术的发展,

学位

软件自适应演化Q学习环境模型Agent技术程序设计

面向数据集成的数据质量控制系统设计与实现

与本文相关的学术论文