论文部分内容阅读
随着信息技术的发展以及云服务的普及,越来越多的企业或机构将本地大量的数据以及复杂的管理外包给云服务提供商,简化了租户对相关配套基础设施、后续改造升级、维护、运营管理等方面的费用投资。与此同时,由于外包在云端的数据不受租户的直接控制、管理,将面临外部攻击者和云服务提供商的管理人员的泄露威胁。面对这些威胁,研究者提出了许多隐私保护技术。主要包括数据失真、数据加密和分块混淆等技术,数据失真技术是使敏感数据失真的同时保持某些数据或属性不变,但主要在统计领域应用。数据加密技术是指使用加密技术对敏感数据进行保护,但解密和加密时计算资源开销较大。基于分块混淆的隐私保护技术,它在保证数据不失真和应用性能的情况下,根据隐私约束对数据进行分块,混淆属性间的关联关系,保护用户的隐私。例如{姓名,年龄,地址,工资}是一条隐私约束,它能唯一确定一个用户的地址信息。根据隐私约束不相容性,对隐私属性分块,通过安全的第三方存储加密的块间关联关系,使攻击者不能获取完整的一条用户记录,进而防止了租户数据隐私泄露。当前基于分块的隐私保护技术的研究工作主要集中在根据用户定制的隐私约束进行分块隐私保护,对在数据集的持续动态变化情况下的泄露隐私的情况的评价及如何保护却涉及较少,由于租户的数据往往隐藏着一些内在的关联关系,并且随着数据集不断地发生更新,属性间的关联关系和数据分布特性也会发生变化,特别是随着数据挖掘技术和相关应用的发展,对一些看似不属于隐私的属性也可能通过对不同属性之间数据的组合推导出或以较大概率确定租户的一些行为信息或其他敏感信息。而且由于局部数据可能不均衡,也极容易被猜测攻击,从而泄露隐私。因此如何检测这些泄露租户特征行为的组合属性和异常的数据分布以及对其隐私进行进一步保护变得尤为重要。针对上述问题,本文寻求一种评价保护机制,评价该隐私保护技术在租户数据动态变化情况下泄露隐私的程度,然后对租户数据进行调整保护。通过对基于分块混淆隐私保护技术的分析,本文将租户数据隐私泄露的情况分为关联规则泄露和数据分布不均衡泄露两种,然后分别针对这两种情况对其泄露程度进行动态衡量评价,最后根据评价结果,对租户的数据进行调整,以保护组户的数据不被泄露。1.关联规则隐私泄露:本文首先对租户分块数据进行关联性动态检测,判断是否泄露租户隐私信息,然后依据泄露隐私的属性维度对当前数据分块选择是添加噪声还是重新分块,最后根据租户操作习惯对需要重新分块的数据块优化以保证租户应用性能要求。2.数据分布不均衡隐私泄露:针对该情况,本文提出了相应的隐私保护程度评价机制,通过分析块间和块内可能发生的隐私泄露类型以及攻击者有无背景知识的情况,使用动态数据处理算法记录动态变化的数据,最后由泄露评价算法评估泄露程度并给出相应的防御措施。通过上述研究,本文提出了面向多租户应用的隐私保护动态评测机制,并通过实验从多个角度验证了该机制的可行性和算法的有效性。