论文部分内容阅读
数据集成技术为企业解决跨多平台,异构数据的集成问题提供了一条解决途径。数据集成系统可以把企业内部的各种相关数据资源进行集成、共享,为消除信息孤岛,也为企业的信息资源规划提供了可能。数据集成过程是一个从分布的数据源(包括数据库、应用系统等)抽取数据,进行转换、集成和传输,以目标系统希望的数据形式加载到目标系统中的过程。在此过程中,数据质量控制是一个至关重要的基本组件和功能,它对“脏”数据进行屏蔽,防止“脏”数据进入目标系统,同时负责解决数据源之间模式关联和映射问题。在实际的数据集成过程中如果缺少对数据质量的有效控制,常常会导致集成过程的失败。
“如何根据数据集成的特点,设计面向数据集成的数据质量控制系统,减少数据集成中的数据质量问题”是论文研究的重点。
论文首先从数据集成过程的特点出发,讨论了数据集成过程中数据质量控制的特点和难点,确立了本论文关于数据集成中数据质量控制的研究方向,即:分别从模式集成和实例数据清洗两个方面进行数据质量控制问题研究。
论文分别在模式集成和实例数据清洗两个层面提出了自动化和基于规则相结合的数据质量控制策略。在模式集成的研究中,论文提出了一种模式自动匹配算法用来辅助进行模式集成,并将模式转换和模式冲突检测结合到模式集成过程中。在实例数据清洗研究中,提出基于统计分析的异常数据自动检测方法。同时,提出了一种针对中文的相似重复记录的检测算法,能够有效地检测多语言的相似重复记录。在上述研究基础上,论文提出了基于规则的数据质量控制策略,通过用户自定义的模式集成规则、实例数据清洗规则,解决更多的模式冲突问题,提高实例数据清洗的准确率。
最后,本文针对OnceDI 3.0中的数据集成模型和OnceDI 3.0体系结构设计了OnceDI 3.0数据质量控制子系统,在设计中通过设计模式的应用增加系统的可扩展性。