面向数据集成的数据质量控制系统设计与实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ss22ss33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据集成技术为企业解决跨多平台,异构数据的集成问题提供了一条解决途径。数据集成系统可以把企业内部的各种相关数据资源进行集成、共享,为消除信息孤岛,也为企业的信息资源规划提供了可能。数据集成过程是一个从分布的数据源(包括数据库、应用系统等)抽取数据,进行转换、集成和传输,以目标系统希望的数据形式加载到目标系统中的过程。在此过程中,数据质量控制是一个至关重要的基本组件和功能,它对“脏”数据进行屏蔽,防止“脏”数据进入目标系统,同时负责解决数据源之间模式关联和映射问题。在实际的数据集成过程中如果缺少对数据质量的有效控制,常常会导致集成过程的失败。 “如何根据数据集成的特点,设计面向数据集成的数据质量控制系统,减少数据集成中的数据质量问题”是论文研究的重点。 论文首先从数据集成过程的特点出发,讨论了数据集成过程中数据质量控制的特点和难点,确立了本论文关于数据集成中数据质量控制的研究方向,即:分别从模式集成和实例数据清洗两个方面进行数据质量控制问题研究。 论文分别在模式集成和实例数据清洗两个层面提出了自动化和基于规则相结合的数据质量控制策略。在模式集成的研究中,论文提出了一种模式自动匹配算法用来辅助进行模式集成,并将模式转换和模式冲突检测结合到模式集成过程中。在实例数据清洗研究中,提出基于统计分析的异常数据自动检测方法。同时,提出了一种针对中文的相似重复记录的检测算法,能够有效地检测多语言的相似重复记录。在上述研究基础上,论文提出了基于规则的数据质量控制策略,通过用户自定义的模式集成规则、实例数据清洗规则,解决更多的模式冲突问题,提高实例数据清洗的准确率。 最后,本文针对OnceDI 3.0中的数据集成模型和OnceDI 3.0体系结构设计了OnceDI 3.0数据质量控制子系统,在设计中通过设计模式的应用增加系统的可扩展性。
其他文献
网格被誉为继Internet和Web之后的第三次信息技术浪潮,借鉴了现有的电力网的思想,它试图实现互联网上所有资源的连通,即把整个互联网整合成一台巨大的超级计算机,包括计算资源、
全光传输网络以其稳定性好和传输容量大等优点,正迅速成为带宽需求较大的下一代通信网络主要发展方向之一。基于波分复用(Wavelength DivisionMultiplexing-WDM)技术,可以在一
生产调度是冷轧板材生产的枢纽,调度的合理性、准确性、及时性都直接影响了整个生产组织有序性、连续性、产能高低、产品质量好坏,以及企业应对市场变化的能力高低。在信息技
近年来,随着计算机的普及和Intemet的飞速发展,地理信息系统在房地产管理、汽车GPS自动导航、三维虚拟现实仿真等领域得到广泛应用,并具有越来越大的市场。这些应用都需要空间数
随着各种覆盖网系统规模和数量的剧增,它们独立探测底层网络性能对网络资源造成的浪费,以及独自选路导致的路由抖动和不公平性等问题日渐受到人们的重视。承载网(Underlay)是为
随着计算机网络和通信技术的飞速发展,网络环境已经从早期相对静态的、面向特定组织和用户群体的封闭网络,转变为可公共访问的、面向大量动态用户的开放网络,其主要应用领域包括
流数据查询是流数据处理中一个非常重要的研究领域,由于流数据到来的快速性和大量性等特点,必须及时地对流数据进行处理,流数据的输入速率突然剧增会使查询系统发生过载,将严重影
随着数据挖掘研究的深入,越来越多的问题呈现在我们面前,也提出了更高的要求。当前,复杂类型数据的挖掘需求上升,专家学者开始关注这方面的新应用和理论研究,并试图利用结构化数据
DNA计算以其海量存储和并行运算能力,从理论上可克服电子计算机存储量与运算速度上的不足,成为NP完全问题和其它难解问题的潜在解决方案之一,并且在理论上已成功的在多项式时
在金融管理、空中交通管制、通信网络管理等领域存在很多复杂问题,单个Agent解决不了,因为资源或者能力有限,而多Agent系统提供了解决这些问题的可能。但随着科学技术的发展,