论文部分内容阅读
在无线传感器网络、信用卡欺诈检测、网络监控等大量应用领域中,数据流数据持续、高速地产生,并且由于设备精度、重复抽样、值缺失、隐私等原因,产生数据普遍存在着不确定性。不确定数据流已逐渐成为一种常见的数据存在方式,针对不确定数据流的管理和挖掘技术也因此成为学术界前沿研究领域之一。数据流分类是数据流挖掘的重要问题之一,许多应用问题如网络入侵检测、环境监测、垃圾邮件过滤和信用卡欺诈检测等,都可以建模为数据流分类问题。然而,传统数据流分类算法大多数只能处理数据项为精确值的数据流,无法有效地应用于不确定性普遍存在的实际应用领域。本文主要关注不确定数据流分类分析问题,围绕快速不确定数据流分类,获取不确定数据流数据概率分布,概念漂移不确定数据流分类,以及正例与未标注学习场景下的不确定数据流分类等几方面技术展开研究。主要研究内容和成果包括:(1)为对快速不确定数据流分类,基于非常快速决策树(Very Fast Decision Tree,VFDT)算法,本文提出了uVFDTc算法。给出了在VFDT中处理持续到来不确定样本的方法,提出了从不确定样本中收集充分统计量的技术,并且针对不确定连续属性值,提出了高斯逼近,固定有序箱和等高直方图三种归纳算法,获取不确定数值流中数据项的概率分布。扩展了朴素贝叶斯模型为不确定朴素贝叶斯(Uncertain Na ve Bayes,UNB)模型,使之能对不确定数据流分类。在训练阶段,uVFDTc算法在收集的统计量上计算不确定信息增益,并应用Hoeffding边界理论快速构造合理的决策树;在分类阶段,在叶子结点上采用UNB分类策略提高输出模型的分类性能。实验结果表明,Hoeffding边界理论可令uVFDTc快速产生规模小、准确率高的不确定决策树;叶子结点上应用UNB分类策略可显著提高uVFDTc的分类性能;与没有使用UNB分类策略的uVFDTc相比,使用了UNB的uVFDTc最高准确率高出3%;数据流不确定水平达30%情况下,uVFDTc的分类准确率仍能接近于使用确定样本学习的VFDT。(2)研究了不确定数据流近似分位归纳问题。为更准确获取不确定数据流的概率分布,基于GK算法,本文提出针对不确定数据流的近似分位归纳算法uGK,并应用到uVFDTc算法中。uGK算法使用与GK算法相同的内存结构(元组)存储归纳信息,与GK算法具有相似的空间复杂度;只需进行一遍扫描,就可将不确定数据流的概率分布信息归纳到少量元组中,且所获得的分布能以指定精度逼近不确定数据流的实际分布。实验结果表明,uGK算法能以远少于空间复杂度估算数目的元组归纳数据流;随着数据集的不确定水平上升,所需元组的数目不会随之增加,甚至有可能降低;归纳元组能够满足指定的分位查询精度;在数据流分类中,uGK可令uVFDTc获得更佳的分类准确率。(3)为对隐含概念漂移的不确定数据流分类,基于uVFDTc和CVFDT算法,本文提出可处理不确定数据流中概念漂移的非常快速决策树算法uCVFDTc。在训练阶段,uCVFDTc利用与uVFDTc相同的技术处理不确定样本、收集充分统计量和生长决策树,同时采用滑动窗口技术和备选子树替换技术,获得概念漂移处理的能力。在分类阶段,uCVFDTc同样在叶子结点上使用不确定朴素贝叶斯分类器,作为分类策略,进一步提高分类性能。实验结果表明,uCVFDTc具有很强的能力检测和适应不确定数据流中概念的变化;不确定朴素贝叶斯分类策略在uCVFDTc叶子结点上的应用,可明显提高uCVFDTc对不确定数据流的分类性能,特别是可提高对不确定性的健壮性和概念漂移的处理能力。(4)研究了正例与未标注学习场景下的不确定数据流分类问题。为对仅含正例与未标注样本的不确定数据流分类,本文提出了puuCVFDT算法。该算法仅利用不确定正例与未标注样本进行学习,构造非常快速决策树。首先给出了从仅含正例与未标注样本的不确定数据流中收集充分统计量的方法,提出了针对正例与未标注样本的不确定信息增益,并给出了在充分统计量上计算不确定信息增益的方法。接着应用Hoeffding边界理论,快速生成多棵不确定决策树。最后给出从多棵决策树中选择分类性能最佳决策树的技术,以及最佳决策树对未知样本分类的技术。实验结果表明,puuCVFDT具有很强的能力从仅含正例和未标注样本的,且隐含概念漂移的不确定数据流中学习非常快速决策树;在数据集不确定程度达30%,且其中正例样本比例仅为10%的情况下,puuCVFDT所输出决策树模型的分类准确率就可与使用全标注确定样本训练的CVFDT相匹敌。