论文部分内容阅读
云计算的发展提高了大数据处理的效率和降低了用户的成本,但这种发展受到了数据隐私保护的严重阻碍。基于密钥共享技术或全同态加密技术因代价大、效率低,不适用于云计算环境下大数据处理的隐私安全保护。在云计算背景下,利用有安全保障的私有云处理敏感隐私信息和无安全保障的公有云处理非敏感隐私信息是一种有效的解决方案。但这种混合云解决方案并不能被主流的大数据处理框架如MapReduce所支持。针对这一问题,本文研究了在多云协同架构下利用MapReduce保护大数据处理中的数据隐私的问题。针对多云协同架构,本文提出了基于数据划分模型,该模型是一种通用的隐私数据处理模型,采用数据划分技术将包含敏感属性的数据从原始数据中分离开,再利用私有云和公有云来分别处理包含敏感属性和不包含敏感属性的数据,从而实现隐私保护。针对已知属性值的统计概率的情况,提出一种更高效的隐私数据处理模型,即基于密码学模型,该模型是利用高效的密码学多表代换手段实现对原始数据中的敏感信息进行加密来实现隐私保护目的的。针对上述两种模型,本文分别设计了相应的解决方案。在基于数据划分模型解决方案中,提出“基于value/key值划分”方法使得划分后的两个数据集可以单独交付不同云平台处理,且保证全部敏感信息只存在于其中的一个数据集中,在该方法中利用BloomFilter解决了key值收集和查找的难点。在基于密码学模型解决方案中,提出“基于概率的多表代换”方法,该方法依据属性值的统计概率实现对全部属性值的加密,破坏了基于属性值的统计规律,从而保护隐私信息不被泄露,使得数据可安全交付公有云处理。经理论分析和实验验证,本文提出的多云协同架构下基于数据划分模型解决方案和基于密码学模型解决方案均能有效进行数据隐私保护,同时在节约私有云资源方面有良好的表现。