论文部分内容阅读
随着云计算和信息共享技术的不断发展和普及应用,传感器网络、Web应用服务、网络流量监控、入侵检测等应用领域出现了数据流形式的数据,数据流具有实时、突变、潜在无限、概念漂移的特性,这给传统的隐私保护的分类挖掘方法带来了挑战。本文以数据流分类挖掘中的隐私保护为研究内容,设计较为高效的隐私保护的数据流分类挖掘算法,主要完成了以下工作:首先,基于传统的数据流分类算法VFDT和VFDTc,针对连续属性数据流,设计并实现了一种基于红黑树的快速决策树分类算法,命名为VFDT_RBT(Very Fast Decision Tree Based on Red Black Tree),该算法利用红黑树来提高计算连续属性的信息增益的效率,并且利用Hoeffding不等式和允许连续属性重复出现的原则来提高算法的分类精度;通过实验验证了VFDT_RBT算法在时间效率和分类精度方面的优势。其次,针对数据流挖掘算法中的隐私泄露问题,基于VFDT_RBT设计并实现了一种基于快速决策树的隐私保护的数据流分类算法,命名为PPFDT(Privacy Preserving Fast Decision Tree),该算法能在利用随机扰动技术进行隐私保护的同时快速建立决策树;通过实验验证了PPFDT算法不仅具有与VFDT_RBT近似的准确度,而且具有较高的效率。最后,为满足数据流的实时处理需求,解决隐私保护的数据流分类算法在单节点下的高负载问题,基于流计算平台Storm对PPFDT算法进行了分布式并行化,设计了并行的基于快速决策树的隐私保护的数据流分类算法,命名为PPFDT_P(Parallelized Privacy Preserving Fast Decision Tree)。该算法在处理大规模数据时具有较高的吞吐量和实时性,也具有较好的可扩展性和并行效率。本文以数据流分类挖掘的隐私保护为研究目标,设计了相关算法,并结合实时流计算平台Storm进行了算法的并行化;研究成果具有一定的理论价值和较好的实用性。