论文部分内容阅读
当今,许多涉及数据库的应用当中,例如商品物流、经济学、金融管理、军事信息、电信业等领域,广泛存在不确定数据,不确定性数据重要性日益突显。大量的不确定性数据伴随着数据规模不断扩大、共享范围越来越广、数据形式多样化产生。与此同时,大量的脏数据也随之产生。传统的数据清洗技术却无法直接运用于清洗不确定性数据中的脏数据,这就使不确定性数据清洗技术成为国内外研究的热点。不确定数据清洗主要工作包括:重复数据删除、错误数据检测、缺失值填充、修改不一致数据等。由于大量错误数据广泛存在于不确定数据中,严重影响用户对数据的管理、分析及决策。因此,研究一个能有效检测错误数据的方法,具有重要的理论意义和实际价值,也具有相当的难度和挑战。证据理论作为一种不精确推理理论,不仅能够表示不确定数据,而且具有度量数据不确定性的能力。因此被广泛的应用到医学诊断、情报与法律案件分析、多属性决策分析目标识别等许多领域。本文针对不确定性数据清洗高效性及正确性的要求,有效利用证据理论在不确定性知识表示和推理方面的优势,考虑不确定性数据表在SPJ (Select-Projection-Jo in,选择投影连接)查询操作后产生的数据,研究利用证据理论的置信区间来进行不确定性数据清洗中错误数据检测算法。本文的主要工作可概括如下:1、构建面向不确定数据SPJ操作的错误数据检测证据理论模型为了结合待测数据项集合构建证据理论的辨别框架,本文针对不确定性数据表SPJ查询操作,通过遍历结果数据表,给出了构建证据理论的辨别框架算法,作为不确定性数据错误数据检测的基础。2、利用证据理论置信区间进行不确定数据错误检测基于构建的辨别框架,本文通过证据融合算法及近似算法计算各结果数据项概率值,从而得到待测数据项的置信区间,然后利用此置信区间检测已知待检数据概率是否错误。