论文部分内容阅读
纵观数据质量的不一致性研究历程,条件函数依赖、条件包含依赖、微函数依赖及其扩展相继被提出,这些方法无法解决实际应用中多表不同属性之间整体或局部的不一致性问题。本文提出一种基于主数据和扩展微函数依赖的不一致性检测方法,以及基于置信度和熵的不一致性数据修复方法。为解决多表不同属性之间整体或局部的不一致性检测问题,本文提出扩展微函数依赖,该依赖是微函数依赖的扩展。并且引入主数据来明确其中的错误数据,解决多表不同属性之间的不一致性传播问题。本文提出的基于主数据和扩展微函数依赖的多表数据不一致性检测方法,是以主数据修复为导向的不一致性属性检测。该方法是将属性与主数据进行条件包含依赖检测,满足该依赖的记录才进行微函数依赖检测,不满足以上任意检测规则的数据即为不一致性数据。为解决扩展微函数依赖以时间代价换取检测准确性的问题,本文提出增量检测方法。该方法识别出受数据或检测规则增删改影响的数据,并对这些数据进行不一致性检测,可有效提高检测效率。本文不仅提出多表不同属性之间整体或局部的不一致性检测方法,还对扩展微函数依赖规则的自动挖掘及完整性检测方法进行了研究。为保证扩展微函数依赖规则的一致性、正确性、完整性,本文提出用于依赖规则自动挖掘的e CTANE算法,并提出用于规则完整性检测的FHG方法。为解决多表中不一致性数据的修复问题,本文提出基于置信度和熵的自动修复方法。该方法主要对置信度大于等于置信度阈值或熵小于等于熵阈值的数据进行修复,可通过主数据和扩展微函数依赖规则确定修复值。剩余的不一致性数据由人工修复后再次被检测。根据上述方法,设计并实现了多表数据的不一致性检测与修复系统,本文对系统的架构、业务流程、功能模块、关键技术、实现效果进行了详细的描述。系统在自动化的检测和修复流程中添加了人工复核的流程,保证数据不一致性检测和修复的准确性。