隐私保护的数据流分类算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:hfghtyr56
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算和信息共享技术的不断发展和普及应用,传感器网络、Web应用服务、网络流量监控、入侵检测等应用领域出现了数据流形式的数据,数据流具有实时、突变、潜在无限、概念漂移的特性,这给传统的隐私保护的分类挖掘方法带来了挑战。本文以数据流分类挖掘中的隐私保护为研究内容,设计较为高效的隐私保护的数据流分类挖掘算法,主要完成了以下工作:首先,基于传统的数据流分类算法VFDT和VFDTc,针对连续属性数据流,设计并实现了一种基于红黑树的快速决策树分类算法,命名为VFDT_RBT(Very Fast Decision Tree Based on Red Black Tree),该算法利用红黑树来提高计算连续属性的信息增益的效率,并且利用Hoeffding不等式和允许连续属性重复出现的原则来提高算法的分类精度;通过实验验证了VFDT_RBT算法在时间效率和分类精度方面的优势。其次,针对数据流挖掘算法中的隐私泄露问题,基于VFDT_RBT设计并实现了一种基于快速决策树的隐私保护的数据流分类算法,命名为PPFDT(Privacy Preserving Fast Decision Tree),该算法能在利用随机扰动技术进行隐私保护的同时快速建立决策树;通过实验验证了PPFDT算法不仅具有与VFDT_RBT近似的准确度,而且具有较高的效率。最后,为满足数据流的实时处理需求,解决隐私保护的数据流分类算法在单节点下的高负载问题,基于流计算平台Storm对PPFDT算法进行了分布式并行化,设计了并行的基于快速决策树的隐私保护的数据流分类算法,命名为PPFDT_P(Parallelized Privacy Preserving Fast Decision Tree)。该算法在处理大规模数据时具有较高的吞吐量和实时性,也具有较好的可扩展性和并行效率。本文以数据流分类挖掘的隐私保护为研究目标,设计了相关算法,并结合实时流计算平台Storm进行了算法的并行化;研究成果具有一定的理论价值和较好的实用性。
其他文献
视频图像上的物体检测与识别技术通常都依赖于目标物体在形状、外观特征上的先验知识。对于这些先验知识,我们可以进行人为分析来建立具体特征上的判别规则,而这样得到的判别
中医学是我国优秀的民族文化瑰宝,几千年的传承与沉淀,形成了较为完整的独特的理论体系,是中华民族几千年文明和智慧的结晶,为人类的繁衍与健康作出了极其重要的贡献,至今仍具有强
随着现代信息处理技术的发展,图书馆也向着自动化、网络化和数字化的方向发展。但是图书馆最基础的资源体系依然是馆藏文献资料,特别是纸质文献资料。由于采用人工对馆藏资料
在分析基于Adaboost人脸检测算法和JPEG2000压缩算法原理的基础上,针对视频图像数据量大,带宽相对低的现状,提出一种人脸检测和感兴趣区域编码相结合的视频监控方案,方案采用
随着云计算技术、云存储技术的发展,系统内部产生的数据量呈现出爆炸式的增长方式。在面对海量数据的存储与处理时,云计算技术以及云存储技术逐渐成为当前互联网技术中主流的
随着近年来计算机技术的不断发展,各式各样的Web应用程序迅速涌现,给人们的生活和办公带来极大的便利,人们的生活也越来越离不开网络。然而,各种资产和信息的网络化也引发了各种
随着软件复用和构件开发等技术的日趋成熟,基于构件的软件工程(CBSE, Componet-based Software Engineering)正改变着软件开发的模式,聚焦构件通过复用技术设计大型复杂的软
工业无线网络节点作为工业无线网络的基础和载体,其故障不但将直接影响网络本身的正常运行,而且作为过程无线控制系统和大型机械设备监控的基础,若不及时排除节点故障,将直接
计算机科学经过几十年的发展,对人们的生产、生活、工作、娱乐等方面产生了重大影响。随着个人电脑,智能设备,移动操作系统的广泛应用及普及,人们对于计算机的交互体验和操作
人脸检测问题的研究重点在于提高检测速度和降低误检率。Viola基于积分图像和AdaBoost算法的人脸检测方法是继Rowley人工神经网络方法之后的重大发展,微软研究院提出的FloatB