不确定数据流分类算法研究

被引量 : 0次 | 上传用户:selions
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在无线传感器网络、信用卡欺诈检测、网络监控等大量应用领域中,数据流数据持续、高速地产生,并且由于设备精度、重复抽样、值缺失、隐私等原因,产生数据普遍存在着不确定性。不确定数据流已逐渐成为一种常见的数据存在方式,针对不确定数据流的管理和挖掘技术也因此成为学术界前沿研究领域之一。数据流分类是数据流挖掘的重要问题之一,许多应用问题如网络入侵检测、环境监测、垃圾邮件过滤和信用卡欺诈检测等,都可以建模为数据流分类问题。然而,传统数据流分类算法大多数只能处理数据项为精确值的数据流,无法有效地应用于不确定性普遍存在的实际应用领域。本文主要关注不确定数据流分类分析问题,围绕快速不确定数据流分类,获取不确定数据流数据概率分布,概念漂移不确定数据流分类,以及正例与未标注学习场景下的不确定数据流分类等几方面技术展开研究。主要研究内容和成果包括:(1)为对快速不确定数据流分类,基于非常快速决策树(Very Fast Decision Tree,VFDT)算法,本文提出了uVFDTc算法。给出了在VFDT中处理持续到来不确定样本的方法,提出了从不确定样本中收集充分统计量的技术,并且针对不确定连续属性值,提出了高斯逼近,固定有序箱和等高直方图三种归纳算法,获取不确定数值流中数据项的概率分布。扩展了朴素贝叶斯模型为不确定朴素贝叶斯(Uncertain Na ve Bayes,UNB)模型,使之能对不确定数据流分类。在训练阶段,uVFDTc算法在收集的统计量上计算不确定信息增益,并应用Hoeffding边界理论快速构造合理的决策树;在分类阶段,在叶子结点上采用UNB分类策略提高输出模型的分类性能。实验结果表明,Hoeffding边界理论可令uVFDTc快速产生规模小、准确率高的不确定决策树;叶子结点上应用UNB分类策略可显著提高uVFDTc的分类性能;与没有使用UNB分类策略的uVFDTc相比,使用了UNB的uVFDTc最高准确率高出3%;数据流不确定水平达30%情况下,uVFDTc的分类准确率仍能接近于使用确定样本学习的VFDT。(2)研究了不确定数据流近似分位归纳问题。为更准确获取不确定数据流的概率分布,基于GK算法,本文提出针对不确定数据流的近似分位归纳算法uGK,并应用到uVFDTc算法中。uGK算法使用与GK算法相同的内存结构(元组)存储归纳信息,与GK算法具有相似的空间复杂度;只需进行一遍扫描,就可将不确定数据流的概率分布信息归纳到少量元组中,且所获得的分布能以指定精度逼近不确定数据流的实际分布。实验结果表明,uGK算法能以远少于空间复杂度估算数目的元组归纳数据流;随着数据集的不确定水平上升,所需元组的数目不会随之增加,甚至有可能降低;归纳元组能够满足指定的分位查询精度;在数据流分类中,uGK可令uVFDTc获得更佳的分类准确率。(3)为对隐含概念漂移的不确定数据流分类,基于uVFDTc和CVFDT算法,本文提出可处理不确定数据流中概念漂移的非常快速决策树算法uCVFDTc。在训练阶段,uCVFDTc利用与uVFDTc相同的技术处理不确定样本、收集充分统计量和生长决策树,同时采用滑动窗口技术和备选子树替换技术,获得概念漂移处理的能力。在分类阶段,uCVFDTc同样在叶子结点上使用不确定朴素贝叶斯分类器,作为分类策略,进一步提高分类性能。实验结果表明,uCVFDTc具有很强的能力检测和适应不确定数据流中概念的变化;不确定朴素贝叶斯分类策略在uCVFDTc叶子结点上的应用,可明显提高uCVFDTc对不确定数据流的分类性能,特别是可提高对不确定性的健壮性和概念漂移的处理能力。(4)研究了正例与未标注学习场景下的不确定数据流分类问题。为对仅含正例与未标注样本的不确定数据流分类,本文提出了puuCVFDT算法。该算法仅利用不确定正例与未标注样本进行学习,构造非常快速决策树。首先给出了从仅含正例与未标注样本的不确定数据流中收集充分统计量的方法,提出了针对正例与未标注样本的不确定信息增益,并给出了在充分统计量上计算不确定信息增益的方法。接着应用Hoeffding边界理论,快速生成多棵不确定决策树。最后给出从多棵决策树中选择分类性能最佳决策树的技术,以及最佳决策树对未知样本分类的技术。实验结果表明,puuCVFDT具有很强的能力从仅含正例和未标注样本的,且隐含概念漂移的不确定数据流中学习非常快速决策树;在数据集不确定程度达30%,且其中正例样本比例仅为10%的情况下,puuCVFDT所输出决策树模型的分类准确率就可与使用全标注确定样本训练的CVFDT相匹敌。
其他文献
导航与控制技术是自动导引车(AGV)实现智能运行的关键,研发高性能的自动导引车系统具有重要的理论意义和工程应用价值。文中研究对象为前轮既可驱动又可转向的视觉导航三轮式自
本文针对320吨矿用车行走机构和油气悬架展开研究,分析了国内外重型矿用车的发展现状和研究成果,论述了矿用车行走机构和油气悬架的国内外研究概况,结合课题的研究背景,提出了研
中试是新产品投入大批量生产前的小批量实验,下文简称为中试。中试的目的是通过小批量试生产验证产品是否具备批量生产条件并验证出不符合项目,以加快新产品产业化速度。目前打
林业发展不仅是我国经济发展中占有重要地位的一个行业领域,从可持续发展和绿色环保环境的建设方面来说,林业的发展在这些方面也能够起到积极的促进作用。从林业发展的专业角
本文介绍了定边县现代林业发展现状和现代林业造林方法,并提出加强营林生产管理工作的具体措施,包括坚决落实退耕还林政策、落实领导责任制、加强城市林业生态圈建设、推广示
煤层气资源储量丰富,开发潜力巨大,为了满足不断扩大的市场需求,煤层气资源的勘探开发已经引起国内外的广泛重视。地球物理测井以其信息量大、连续、成本低、高纵向分辨率的优势
介绍了高压电机电晕产生原因、危害及防治措施,列举了增安型防爆电机的电晕试验及脉冲试验的特殊要求。依据相关国家标准要求及电机生产制造经验,提出了增安型电机防电晕的两
积极心理健康教育是高校心理健康教育工作的新模式。该模式的核心内容是培养学生的积极心理品质。本文以某职业学院和某大学的学生为样本,对高职学生积极心理品质发展现状进
本文研究了区域可持续发展评价指标体系原则、结构、功能,对资源环境、经济、社会评价指标体系进行了系统分析,还探讨了可持续发展评价的内容、过程和方法,认为可用区域发展协调
神经酸(C24:1)是超长链单不饱和脂肪酸(very long chain monunsatuated fatty acid, VLCMFA)中常见且具有独特的工业用途和潜在药用保健功效的脂肪酸,现在的主要来源是动物,近