基于D-S证据理论的不确定数据清洗方法

来源 :云南大学 | 被引量 : 0次 | 上传用户:sanmumuren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,许多涉及数据库的应用当中,例如商品物流、经济学、金融管理、军事信息、电信业等领域,广泛存在不确定数据,不确定性数据重要性日益突显。大量的不确定性数据伴随着数据规模不断扩大、共享范围越来越广、数据形式多样化产生。与此同时,大量的脏数据也随之产生。传统的数据清洗技术却无法直接运用于清洗不确定性数据中的脏数据,这就使不确定性数据清洗技术成为国内外研究的热点。不确定数据清洗主要工作包括:重复数据删除、错误数据检测、缺失值填充、修改不一致数据等。由于大量错误数据广泛存在于不确定数据中,严重影响用户对数据的管理、分析及决策。因此,研究一个能有效检测错误数据的方法,具有重要的理论意义和实际价值,也具有相当的难度和挑战。证据理论作为一种不精确推理理论,不仅能够表示不确定数据,而且具有度量数据不确定性的能力。因此被广泛的应用到医学诊断、情报与法律案件分析、多属性决策分析目标识别等许多领域。本文针对不确定性数据清洗高效性及正确性的要求,有效利用证据理论在不确定性知识表示和推理方面的优势,考虑不确定性数据表在SPJ (Select-Projection-Jo in,选择投影连接)查询操作后产生的数据,研究利用证据理论的置信区间来进行不确定性数据清洗中错误数据检测算法。本文的主要工作可概括如下:1、构建面向不确定数据SPJ操作的错误数据检测证据理论模型为了结合待测数据项集合构建证据理论的辨别框架,本文针对不确定性数据表SPJ查询操作,通过遍历结果数据表,给出了构建证据理论的辨别框架算法,作为不确定性数据错误数据检测的基础。2、利用证据理论置信区间进行不确定数据错误检测基于构建的辨别框架,本文通过证据融合算法及近似算法计算各结果数据项概率值,从而得到待测数据项的置信区间,然后利用此置信区间检测已知待检数据概率是否错误。
其他文献
随着在Internet网络中实现语音信号的实时传输,语音业务在Intenlet中得到了迅猛的发展.从网络安全考虑,人们要求在开展语音业务的同时,应保证安全性,尤其是参与业务的人员身
该文是以相控阵雷达软件仿真系统为背景,研究基于XML的雷达仿真描述语言,将面向对象仿真和面向知识的标记语言结合起来,描述雷达系统模型,以便实现雷达仿真信息的计算机存储
该文分析了手写签名鉴别技术的应用背景和发展状况,并探讨了签名鉴别问题中的一些重点和难点.针对汉字的结构特点,该文提出了一种基于稳定笔段提取的联机手写签名鉴别的特征
该文针对音频水印的同步问题,给出了两种解决方案.第一种是利用人耳的听觉掩蔽效应,在音频载体中嵌入回声作为同步检测信息.实验结果表明只要选择合适的回声参数,可以保证添
该文结合专家系统技术在具体应用领域的特点,阐述了一种新的知识表示形式以及相关推理技术.该文首先分析现有的知识表示方法,考虑专家系统的实际应用领域,引入线性规划定量计
该文分析了国内外在该方向的研究现状,介绍了已有的网管理念及相关的标准.重点讨论了SNMP协议构架、技术特点和现实情况,即并不能够很好地解决ISO网管五大功能范畴所涉及的问
该文利用库所双模拟方法对Petri网的简化进行了研究,讨论了网在细化时库所双模拟关系的保持问题,以便确定哪些关系可以用于自顶向下的系统设计;同时也对时间Petri网的进程做
该文主要探讨了演化多目标优化的基本理论、方法和应用.首先介绍了多目标优化的基本概念和相关定义,并讨论了解决多目标优化的传统方法及其不足之处.然后介绍了演化多目标优
在网络信息技术快速发展的今天,海量的数据资源被共享,信息安全问题逐渐成为人们关注的热点话题。一方面,企业和组织机构在发展的过程中需要保密自己的有价值数据,另一方面又
进入21世纪后,以互联网和移动通信技术为代表的IT技术在人们的生产生活等领域发挥越来越重要的作用。随着多媒体信息交流的日益频繁,作品侵权、信息篡改、信息窃取等问题也随