论文部分内容阅读
新技术的不断发展和数据的快速增长加速了大数据时代的到来。相关统计显示,如今人们每天产生的数据量已经达到了EB级,而且这个规模呈不断增加的趋势。针对这么庞大的数据规模,传统的数据管理技术难以对其进行分析和处理,有必要通过大规模的服务器集群进行并行处理。大数据不仅仅意味着数据规模大,更意味着其中蕴含的数据价值很大,如对企业大数据的充分利用和挖掘会对企业的决策和未来发展产生重要影响。要想充分发挥大数据的价值,通常对其数据质量有着一定的要求,高质量是大数据的效能充分发挥的基础和前提。大数据的质量问题包括一致性、精确性等在内的多个特性,其中一致性是大数据质量问题的重要内容之一。在数据存在不一致性的情况下,为找出数据中隐含的约束规则,有必要进行诸如函数依赖等约束规则的发现。为提高数据质量,有必要进行不一致性检测,从中发现违反约束规则的不一致性数据。本文主要针对大数据的一致性问题展开相关的研究,主要从大数据约束规则发现、不一致性检测以及数据修复几个方面着手,通过对大数据一致性问题的研究,从中从中发现约束规则和找出违反函数依赖的数据,为大数据的修复提供依据,基于统计学习理论研究了数据清洗问题,给出了数据自动清洗方法。本文的主要研究内容和创新点如下:(1)分布式大数据函数依赖发现方法。指出函数依赖发现问题面临的挑战和现有函数依赖发现方法的不足,提出了适用于分布式水平切分和垂直切分大数据的函数依赖发现方法。制定了函数依赖发现过程中候选函数依赖搜索策略,给出了发现问题的响应时间代价模型,将负载分配问题划归为整数规划问题并给出近似最优解。定义了适合分布式环境函数依赖发现的剪枝策略,基于广播对发现的局部结果进行消息传递和剪枝,从而提升发现效率。基于真实和人工数据集的实验结果表明,提出的函数依赖发现方法在节点扩展性、数据扩展性和属性个数扩展性方面表现良好。(2)分布式大数据近似函数依赖发现方法。指出近似函数依赖的应用价值、近似函数依赖发现面临的挑战和现有研究现状和不足,提出了一种适用于分布式水平切分大数据的近似函数依赖并行发现方法。制定了候选近似函数依赖搜索策略。为提高近似函数依赖发现效率,给出了近似函数依赖集合剪枝策略,基于阶段发现结果进行剪枝,对剪枝效果进行了定量分析。由于任务分配问题为NP-hard问题,给出了近似最优的任务分配方法。实验结果表明,提出的近似函数依赖发现方法与集中式方法相比在数据扩展性和节点扩展性方面优势明显。(3)分布式大数据不一致性检测方法。指出现有的检测方法仅适用于集中式数据、效率较低等问题。在大数据背景下,为提高函数依赖不一致性检测效率,提出了单个函数依赖和多个函数依赖不一致性并行检测算法。通过散列函数进行数据重分布,确保检测结果的正确性和算法的并行执行。由于检测问题为NP-hard问题,给出近似最优解。针对多个函数依赖不一致性检测问题,根据函数依赖的结构特征进行分组和批量并行检测,研究了分组的最优化问题。提出了一种基于等价类的普适性分布式并行多函数依赖冲突检测方法,给出了检测的响应时间代价模型和任务分配的近似最优算法。将动态均衡负载问题划归为二次规划问题,并采用拉格朗日算子法得到近似最优解。实验结果表明提出的检测方法在数据规模、节点个数、函数依赖个数方面扩展性良好,而且在减少响应时间方面优势明显。(4)基于统计学习的自动数据清洗方法。分析了现有数据清洗方法的不足和问题的挑战,提出了一种基于统计学习和概率推理的无监督自动数据清洗方法,适用于缺乏现成的数据质量模式/规则同时无需人工介入情况下的大规模数据清洗。从数据或者数据采样当中学习数据模型并转换成一阶谓词逻辑规则,对一阶谓词逻辑规则权重进行了确定,将一阶谓词逻辑规则转换成DeepDive推理规则并将于DeepDive平台进行推理,结果用于数据修复。实验结果表明,本文提出的方法与已有贝叶斯方法相比在精确度、召回率和F-值等方面明显占优。