论文部分内容阅读
随着信息技术的迅速发展,数据规模逐渐扩大,劣质数据也随之而来,极大地降低了数据的可用性。当一个数据集合中的错误不能彻底修复时,我们称其为弱可用数据。弱可用数据上近似计算(如查询、分析、挖掘等)的理论和算法成为重要的研究问题。弱可用数据上的近似计算不同于传统意义下的近似计算,它是在具有一致性错误、完整性错误、精确性错误、时效性错误或实体同一性错误的数据上近似地求解满足给定精度要求的问题的解。目前,面向弱可用数据的查询处理主要有两种解决方法:一是对弱可用数据进行数据修复,在修复后的数据集上执行查询。二是直接在弱可用数据上计算满足所有可能修复的查询结果。在第一种方法中,由于修复具有多种可能,没有任何一种修复算法能够保证修复后的查询结果的准确性;第二种方法可能造成大量的弱可用数据丢失,严重降低了查询结果的质量。为了有效地解决上述问题,本文围绕完整性、一致性、实体同一性这三个方面,对弱可用数据聚集查询处理展开研究,本文的研究内容可以概括如下:首先,本文研究了可填充的不完整弱可用数据聚集查询处理问题。不完整数据又称为缺失数据,现有的缺失值填充算法不能保证填充后查询结果的准确度。本文给出一种面向不完整数据聚集查询结果的区间估计方法。假设聚集查询语句中聚集属性的值域范围已知,并且缺失值是可填充的,本文直接在缺失的数据集上给出聚集查询结果的区间估计。通过估计不完整数据库所有可能世界的查询结果的上界ub和下界lb,保证真实的查询结果一定在[lb,ub]区间范围内。本文提出的算法可以适用于任何缺失机制中,不对数据分布做任何假设,可以在线性时间内给出SUM、COUNT和AVG查询结果的区间估计。其次,本文研究了不可填充的不完整弱可用数据聚集查询处理问题。假设聚集查询语句中聚集属性的值域范围未知,并且缺失值包括可填充的和不可填充的两种类型,本文给出聚集查询结果的区间估计。本文在符号语义中扩展传统关系数据库模型,提出了一种通用不完整数据库模型,该模型可以处理可填充的和不可填充的两种类型的缺失值。在该模型下,本文提出一种新的不完整数据聚集查询结果语义:可靠结果。可靠结果是真实查询结果的区间估计,本文给出线性时间求解SUM、COUNT和AVG查询可靠结果的方法。再次,本文研究了实体冲突弱可用数据聚集查询处理问题。识别数据集中有差异的重复数据的过程称为实体识别。现有实体识别算法计算复杂性较大,并且具有修复准确度不高的问题。为此,本文设计并实现了实体冲突数据上聚集查询处理系统CrowdOLA。CrowdOLA不修复冲突的实体,而是直接在有实体冲突的数据集上给出聚集查询结果的估计。CrowdOLA的核心思想是在原始数据集上采样,利用基于众包的实体识别方法识别冲突实体,根据样本上的聚集结果对总体查询结果无偏估计,从而在保证置信度的前提下提高了查询效率。最后,本文研究了不一致弱可用数据聚集查询处理问题。目前,解决该问题常用的方法是一致性查询方法,该方法返回满足所有可能修复的查询结果。然而,一致性查询方法可能造成大量有用信息的丢失,并且计算一致性查询的复杂度非常高。为此,本文提出一种基于不确定图求确定性概率最大的修复方案及查询结果的方法。可以保证得到的修复方案的修复代价最小,修复的确定性概率最高,进而保证在该修复方案下的查询结果的准确率最高。