面向缺损敏感属性的匿名算法研究与系统实现

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:woshizd0214
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网技术的快速发展,人与人、人与物及物与物之间频繁的信息交互以及资源共享导致数据量激增,越来越多的数据集对外公开造成了隐私泄露的问题。在这种信息开放暴露的环境下,防止隐私泄露已经成为当今科研人员的研究重点之一。数据匿名技术因有着数据可用性高和安全系数高的优点常被作为隐私保护技术的一种有效手段,用以解决隐私泄露问题。本文基于数据匿名化技术提出了一种新的匿名模型和匿名算法,并基于此设计了匿名算法评估系统,具体的工作内容如下:提出了一种面向缺损敏感属性的匿名模型。针对相似攻击在传统数据匿名方法中导致隐私泄露问题,本文在面向缺损数据的(a,k)-匿名模型基础上,提出了一种新的面向缺损敏感属性的(γ,l-p,k)-匿名模型,主要是在匿名模型中引入了信息熵作为计算缺损数据的属性距离,通过敏感属性度高低分为不同的敏感级别,并设置相应的权重ω值,同时让数据元组中的等价类敏感级别个数满足阈值γ。能在一定程度上减少因相似攻击造成的个体敏感信息泄露的风险,并通过实验对比验证了(γ,l-p,k)-匿名模型的有效性。基于提出的(γ,l-p,k)-匿名模型本文提出了一种面向缺损敏感属性的加权信息熵匿名算法(Weighted Information Entropy Anonymous Algorithm based on Defect-Sensitive Attributes,WISA*)。该算法以信息损失最小为聚类目的,通过计算缺损数据的距离,将信息熵引入并且作为衡量记录之间的泛化距离。为了验证算法的有效性,分别将UCI机器学习数据库中的Adult标准数据集和Census-Income数据集作为测试数据集,通过对比面向缺损数据的(a,k)-匿名模型和(a,k)-匿名模型算法实验结果表明:WISA*算法在满足时间复杂度的前提下,具有更小的信息损失和多样性的敏感属性,表明了提出算法的有效性。融入提出的模型及算法设计和实现了一种匿名模型评估系统。该系统最主要的功能是可以通过调节实验参数的方式在模型度量上对各个模型进行评估,根据用户的需求来选取适合的匿名模型。其中系统测试选用的是标准数据集Adult和Census-Income作为数据输入。
其他文献
在遥感技术不断发展的过程中,遥感领域能获取并处理的图像信息越来越丰富,如今,对遥感图像的处理已在地物识别、城市规划、自然灾害观测等领域具有大量实际应用。高分辨率遥感图像具有更加清晰的地物信息,描述纹理信息更加丰富。遥感图像包含数据量大的特点意味着获取用于训练的标记数据成本较高,因此许多非监督的学习方法逐渐应用于遥感图像。聚类算法作为经典的非监督学习算法,已在遥感图像处理领域具有较好表现。高分辨率遥
学位
低光图像增强与图像融合作为图像处理研究领域的基础研究,已在计算机视觉、模式识别、人工智能及现实生活中得到了广泛应用。近几年非局部思想已经在现实图像去噪中取得了成功,其中的BM3D和NLH两个算法分别提供了块级非局部和像素级非局部思想在图像去噪任务中的可行性,然而目前非局部方法在图像增强和图像融合领域中尚未得到有效应用,基于此,本文主要做出以下两个工作:第一,本文将块匹配三维变换(BM3D)中的块级
学位
激光雷达系统运载形式多样,车载、机载和星载激光雷达在我国的发展已相对完善,无人船载激光雷达技术的深入研究和开发还有待推进。为获取水下地形信息,需要对回波信号进行实时采集和存储,但高速采集和存储方案种类繁多,数据回放时没有统一格式。此外,从采集到的波形中提取时间、幅值、脉宽等信息时,信号降噪对精度的影响常被忽略。本文对船载激光雷达回波信号的采集存储方案和降噪算法进行了研究,具体内容如下:(1)本文针
学位
随着航天技术和空间遥感技术的快速发展,包含地球表面各种物体的遥感图像的分辨率和可得性有了很大提高,遥感图像目标检测在农业生产、交通监测、军事侦察等领域得到广泛应用。近年来,深度学习发展迅速,为遥感图像目标检测提供了新的解决方案,并取得重要进展,包括基于候选区域的方法和基于回归的方法。前者侧重于检测精度,但检测速度较低,在实时性要求较高的情况下,有一定局限性;后者侧重于检测速度,虽精度略低,但在数据
学位
两层无线传感器网络应用于生活中的方方面面,简洁轻便的结构使其得到广泛的关注和研究。同时两层无线传感器网络也面临着隐私安全的问题,由于网络拓扑简单,使其容易受到攻击,从而导致数据信息错误。目前范围查询协议是两层无线传感器网络的研究热点之一,现如今的研究工作主要针对一维数据进行范围查询,而且在感知节点能量消耗以及隐私安全性方面仍存在不足之处。针对上述问题,本文对多维数据范围查询协议,能量节省措施和隐私
学位
为了对林地土壤资源进行合理利用,并使得种植的农作物与林地土壤类型相适应,科学有效地分析林地土壤元素必不可少。因此,本文利用广西林科院提供的广西林地土壤元素数据集对广西林地土壤进行分析,首先使用改进的多标签特征选择算法对林地土壤元素数据集进行预处理,筛选出对林地土壤分析中的重要特征,然后使用改进的MLKNN算法对土壤从肥力、类别、质地和酸碱度四个方面进行分类,最后在此基础上实现基于多标签的林地土壤元
学位
随着人工智能和大数据等技术的高速发展,金融、生物、医学、机器视觉等领域产生和存储了前所未有的大量数据,这些数据往往表现出类别分布不平衡特性,即某一类样本数量远远大于其他类别,常规分类方法通常假设类别分布平衡,因此在这类数据上性能会下降。研究者们在数据、算法等层面上针对不平衡问题进行了深入而细致的研究,提出了基于过采样、代价敏感和集成学习的不平衡分类方法。其中,过采样是通过为少数类合成新的样本来使类
学位
报纸
报纸
随着信息化时代的到来,网络信息量呈指数性的增长,如何让用户在海量的信息中精准的获取自己想要的信息已经成为了大家的共识,推荐系统的出现在一定程度上解决了这个问题。但是由于用户需求的日益多样化,仅以准确度作为推荐系统的评价指标已经不足以满足用户的需求,本课题将推荐的准确率、多样性和新颖度等指标作为推荐的评价标准,将多目标优化算法和混合推荐算法结合,充分利用不同推荐算法的优势,为用户提供更优的推荐列表。
学位