面向最优效用的机器学习隐私模型

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:liongliong591
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于各种技术的发展,隐私问题成为当下很高的需求,这是因为越来越多的个人数据通过不同的组织,设备,和物联网(IOT)被分享,为个人数据的隐私与使用带来了风险,尤其是实现保密性的同时这样数据集的效用却在递减,因此,新的问题出现在要尽可能对一个更大的数据集保持数据隐私的同时保留多效用。在本研究中,建立了一个新的隐私模型,该模型使用Flash排序算法与k_匿名结合C4.5分类的机器学习技术,旨在保护隐私数据的同时,保持数据集的最优效用。该方法的第一步是在拥有30162条记录和属性的统计数据集上运用强大的数据隐私权授予技术,并使用闪光的排序算法选择最佳K-匿名数据集,设置隐私级别为2,然后通过C4.5分类过程使数据集达到尽可能多的效用。进一步,通过减少统计数据集的一半大小(共15081条记录),然后采用同样的方法进行测试。然后减少属性的数量,采用同样的算法进行测试。这项研究的结果揭示了一些重要的结果,与其他研究相比,本文的方法能够保持数据的准确性,结果显示数据集达到了90.77%的效用,此外,当数据集的大小减小为一半时,产生的数据效用的损失仅为0.5%,当数据集的属性减小时,效用损失仅为2.28%。而在数据集的大小较大时,与原来的非匿名数据集相比,损失为1.24%。虽然它提供了一种精度较高的结果,但未能在更大的数据集上取得最大的期望,研究结果表明,我们的方法在降低数据集的数量时,可以提供最低的效用值与属性约简数。该研究预测,改变隐私方法和使用不同类型的分类器在将来会产生更好的结果,尤其是在处理更大的数据集时。
其他文献
软件漏洞会增加网络安全事件,基于源码的检测在过去十年已经引起安全研究人员的广泛关注了,并在此基础上实现了很多源码漏洞检测工具,检测效果明显。近几年各种商业软件频繁
随着电网的规模的扩大以及电网结构的日趋复杂,汇集到调度中心的各种信息增长迅猛,如何有效的进行调度是如今电力调度中心面临的一个主要问题。智能电网是目前国内外电力工业应对未来挑战的共同选择,而智能调度是保障智能电网运行和发展的重要手段。决策支持系统技术使电力系统的预测能力得到增强,为电网的调度以及预警带来了根本性的转变。但是传统的决策支持系统技术存在着诸如灵活性不高等一系列问题,为克服这些弊端,必须寻
网络的安全性至关重要,一旦重要信息被窃取,将很有可能对个人乃至社会造成很大的损失。保障网络安全的措施有很多,而加密技术在网络安全中的应用是非常广泛的。本文对加密技
计算机技术和模式识别技术的迅猛发展,极大地推动了生物特征识别技术在安全检测上的应用和开发。嵌入式系统以实际应用为中心,符合应用系统对功能、安全、成本、体积、功耗等
自20世纪70年代,图像处理自成一门学科以来,图像处理技术逐渐走进了人们的日常生活。近年来,随着物联网技术的长足发展,图像作为物联网中重要的信息来源,越来越体现出其重要
基于DHT的P2P网络中,虽然已经提出了很多算法解决负载均衡问题,但这些算法或者忽略了网络中节点的异构性、扰动性,或者在节点间转移负载的时候没有考虑其临近关系,从而影响负
合成孔径雷达(SAR)是一种利用微波反射信号成像的雷达,因为其具有全天时和全天候工作的特点,在军事领域应用广泛。随着SAR设备的普及,SAR图像也逐步应用到民用领域,比如海上
在石油化工、风电等企业中,设备状态监测是其进行安全生产的保证。但是目前的状态监测系统都是基于事后分析的,不能够很好的预测一些突发故障或者渐变性故障的发生,并且不能
随着社会信息化程度的不断提高,计算机网络和通信技术迅速发展,信息安全越来越受到人们的重视,数字签名是保障信息安全、保证数据完整性、实现身份鉴别的重要手段。基于秘密共享
软件调试对开发者来说是一个昂贵的、费时费力的过程,尤其是定位程序中的错误通常会耗费调试过程的大部分时间。能够减少错误定位时间的技术显然会对软件开发和维护的成本和