论文部分内容阅读
随着数据采集和处理技术的进步,人们对数据不确定性的认识逐步深入,对不确定性数据的研究也广泛开展。数据不确定性的引入,对数据建模、数据管理和数据挖掘,都提出了新挑战。不确定性数据挖掘不是传统数据挖掘的简单扩展,而是正在蓬勃发展的新研究方向,还有许多有待解决的问题。分类在数据挖掘中是一个重要的研究方向,在现实生活中也是一个普遍存在的问题,具有广泛的应用领域。面对不确定性数据,分类也得到了新发展。本文针对两个层面的不确定性数据——已知概率分布的不确定性数据和缺失概率分布的不确定性数据,研究了三种基本分类方法——最近邻分类、朴素贝叶斯分类和基本决策树分类。本文的研究在一定程度上丰富和发展了不确定性数据挖掘的理论和技术,增强和扩大了不确定性数据及其分类的应用范围。本文的主要工作和贡献如下:(1)研究了已知概率分布的不确定性数据的最近邻分类。对于值不确定性连续对象的最近邻分类,所提方法有效地降低了计算复杂度;对于值不确定性离散对象的最近邻分类,所提方法有效地提高了分类准确率①对于值不确定性连续对象,定义对象之间的距离为期望距离,采用期望平方距离评估期望距离,并推导了有效计算期望平方距离的公式。在某些条件下,期望平方距离具有与期望距离同样的分类准确率,并有效地降低了计算复杂度。②对于值不确定性离散对象,从语义的角度,采用序信息或概念层次树等,定义对象之间的距离为期望语义距离,并通过索引和剪枝计算期望语义距离。如果可以较好地定义语义距离,期望语义距离可以有效地提高分类准确率,而计算复杂度却没有明显地增加。由于期望距离、期望平方距离和期望语义距离适用于确定性对象,所以值不确定性对象的最近邻分类扩展了确定性对象的最近邻分类。(2)研究了缺失概率分布的不确定性数据的朴素贝叶斯分类。基于区间概率理论,将点概率参数的朴素贝叶斯分类扩展到区间概率参数的朴素贝叶斯分类,既可以处理值不确定性离散对象,也可以处理确定性离散对象。①从概率势的角度,定义了值不确定性离散对象的区间概率,并证明了它是区间概率理论中的F-概率。②基于区间概率理论,定义了值不确定性离散对象的条件区间概率(直观概念和规范概念)、独立与直观概念的条件独立,并采用区间概率表达直观概念以便有效计算直观概念。③采用直观概念作为后验区间概率和条件区间概率,采用规范概念重构联合区间概率,进而计算后验区间概率,提出了值不确定性离散对象的朴素贝叶斯分类,将点概率参数的朴素贝叶斯分类扩展到区间概率参数的朴素贝叶斯分类。由于确定性离散对象是值不确定性离散对象的特例,而区间概率理论一般化了经典概率论,因此,值不确定性离散对象的朴素贝叶斯分类可以处理确定性离散对象。(3)研究了缺失概率分布的不确定性数据的基本决策树分类。基于可达概率区间,将以0-1划分对象的基本决策树扩展到以概率区间分配对象的基本决策树,不仅可以处理值不确定性离散对象,而且可以处理确定性离散对象。①从区间概率和条件区间概率直观概念的角度,定义了值不确定性离散对象的概率区间和条件概率区间,并证明了它们是可达概率区间。②基于可达概率区间,定义了值不确定性离散对象的熵区间和条件熵区间,采用可达概率区间的熵的最大值作为熵区间的上界,熵的一个下界作为熵区间的下界,并给出了求解熵区间的上界和下界的方法。③采用二叉树结构和属性值集合测试以及采用条件熵区间作为属性选择度量,提出了值不确定性离散对象的基本决策树分类,将以0-1划分对象的基本决策树扩展到以概率区间分配对象的基本决策树。由于经典概率是可达概率区间的特例,而确定性离散对象是值不确定性离散对象的特例,因此,值不确定性离散对象的基本决策树分类可以处理确定性离散对象。