基于数据隐私保护的匿名算法改进研究

被引量 : 0次 | 上传用户:njg916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,信息越来越多的被存储在计算机上,服务器中。这些信息中包含了很多企业的客户信息,属于企业的商业机密。一些基于互联网的企业,存储了大量普通消费者的隐私信息,这些信息的泄露会给企业的发展产生致命的打击。还有更多的企业包括各行各业的传统企业,也都利用信息系统存储大量企业客户的信息,这些信息是企业不断发展的核心资源,信息的泄露会直接影响到企业客户的流失,使企业失去了发展的根基。此外包括医院,政府等公共机构,也存储着大量的隐私数据,信息的泄露会引起社会不满,民众担忧。凡此种种,都说明了对于隐私信息的保护是一个非常严峻的问题。随着企业对于隐私保护的重视,有关隐私保护技术的研究也越来越深入。本文旨在研究基于隐私保护的数据匿名化方法,主要包括泛化/隐匿技术和微聚集技术。首先分析了泛化/隐匿技术的不足以及微聚集技术的特点,然后比较了基于微聚集技术的各类算法,选取性能较好的MDAV算法作为基算法。但是MDAV算法还有许多需要改进的地方,尤其是针对分类型大数据集的时候,算法效率较低、数据安全性和数据可用性不可兼得的矛盾等问题依然存在。本文基于这些问题提出了相应的改进方法。针对MDAV算法应用到大数据集时算法效率较低的问题,提出的改进策略是添加预处理步骤的思想。在预处理环节引入高效快速的聚类模型,对大数据集进行初始聚类,再对各个子类用MDAV算法形成最终的匿名等价类。通过对大数据集的分割从而大幅度降低算法的执行时间,提升效率。针对MDAV算法存在数据安全性和数据可用性不可兼得的矛盾,提出了适当的改进。考虑到预处理环节添加的初始聚类步骤,使得算法的可用性得到了提升。本文试图在基本不降低数据可用性的情况下,对特定敏感属性值添加进行频率约束,从而增强敏感数据的安全性。基于上述改进,提出了(m,,k)-MDAV算法。算法验证采用了隐私保护领域通用的Adult标准数据集,将(m,,k)-MDAV算法与MDAV算法、(,k)-MDAV进行比较。从算法效率,信息损失,泄密风险等多个维度对实验结果进行分析。实验验证了改进后的新算法大幅度提升了算法效率,适当提升了匿名后数据集的可用性,同时在基本不影响整体数据集安全性的基础上,提升了敏感属性的安全性,证实了新算法改进的有效性。
其他文献
圣桑,法国著名的作曲家,钢琴家,管风琴家,指挥家,音乐评论家,音乐教育家和音乐社会活动家。他无论是从音乐家的角度来评价,或是从他自身的内涵和艺术修养而言,都非常值得后人崇敬和研
<正> 近几年来,阜阳市人大常委会城建环保工委围绕把阜阳建设成皖西北中心城市这一战略任务和目标,结合我市城乡建设环境与资源保护工作的实际,坚持依法监督,突出重点,注重实
煤矿井下供电系统漏电、短路等故障频繁出现,特别是频繁的越级跳闸问题,成为影响井下供电可靠性的重要因素。在深入分析公司供电系统出现越级跳闸问题的基础上,设计了煤矿分
庆阳市是有“西部大庆”之称的长庆油田的主产区之一。①但是,开采的央企与地方严重分离。解决这个问题的关键在于促进央企和地方更好的融合。 Qingyang City is one of the
在初中生物教学中,教师应明确学生的心理特点,将活动融入到生物课堂教学中,有效提高学习效率。用活动导入新课,可以创设问题情境,引导学生探究;用活动突破重难点,可以增加参
目的:研究骨巨细胞瘤(GCT)的X线平片、CT、MRI影像学表现,分析误诊的原因,提高诊断准确性。方法:搜集30例手术病理证实的GCT病例,回顾性分析其术前X线平片、CT平扫、MRI影像
在定襄地震台地磁观测中,地磁仪易受到发电机的供电干扰,文章通过对观测数据的分析,进一步找出干扰的原因,并提出排除方法。同时,对影响地磁观测的其他因素进行分析,以提高地
本文研究利用液晶纺丝技术,探索以单壁碳纳米管(SWNTs)/N-甲基吗啉-N-氧化物(NMMO)水溶液为纺丝原液制备碳纳米管纤维,初步确定纺丝工艺参数和条件。利用透射电子显微镜(TEM)分析表征
各种穿刺针在临床上常反复多次使用,其结构复杂,针腔内更易遗留污物血迹,传染性更强.本文介绍的这种清洗处置方法,结果其热原阴性率均为100%,隐血试验合格率均为100%,值得借
目的探讨3.0 T MRI扩散加权成像(DWI)表观扩散系数(ADC)值与SD大鼠小肝癌分化程度的相关性。方法取SD大鼠80只,注射肝癌诱导试剂,3个月后建立SD大鼠肝癌模型40只,行MRI。常规