论文部分内容阅读
随着全球计算机系统处理的信息数量不断增长,数据质量成为业界十分关注的问题。数据质量是一个多维概念,它既依赖于消费者的需求,又需要符合公司或组织设定的标准。正是因为如此,对数据质量评估是一件困难的工作。一致性问题是本文研究数据质量问题的一个切入点。在系统和软件质量需求和评估过程中,对一致性进行量化是十分复杂的,一方面需要量化一致性测量指标,另一方面,还需要选择合适的测量函数来计算指标值。现在越来越多的分布式系统被开发,它们之间通过通信网络为用户提供方便的数据访问。在网络出现故障的情况下,一个重要的问题是如何保证主库数据的可靠性,同时保证多个副本的相互一致性。因此,对主库和副本进行不一致检测就是一个不容忽视的问题。传统的方法可以通过一些简单的方法来判断不一致,比如主库和副本数据完全比较的方法。为了有效评估数据的一致性和提高数据质量的测量效率,本文基于MySQL数据库系统,构建了数据一致性的测量与评估框架,从目标实体、测量方法、测度元素和测量函数四个方面,描述了一致性评估框架的内涵。本文还提出了两种不一致数据检测方法,并实现了一个数据一致性检测工具。为解决上述问题,本文研究了数据一致性的测量和评估,具体工作如下:(1)提出了数据一致性测量与评估框架,并设计了质量测量函数。(2)提出了一种副本不一致数据检测方法。该方法通过数据分块、计算数据块摘要值和不一致数据检测等步骤,实现对副本数据的一致性检测。其中使用了 CRC算法计算数据块的摘要值,大大提升了检测速度。(3)设计了一种基于条件函数依赖的单表检测方法,基于CFDs进行单表一致性检测研究,通过生成检测查询SQL的方式实现对单表违例数据的检测。(4)基于FCE-AHP模型和六西格玛分级标准,提出了一种一致性分级方法,并通过实验验证了模型的有效性。本文的研究成果有助于数据质量的提升,既适用于备份系统的一致性评估,也适用于单文件数据一致性的研究,可为分布式系统的一致性测量和评估提供理论基础。