论文部分内容阅读
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注,数据正在迅速膨胀并变无穷大,但是随着时间的推移,人们将越来越多的意识到数据的重要性,如何安全、高效地存储越来越多的大数据(Big Data)正是亟待解决的问题。把分散在各地不使用的资源集中起来使用,采用分布式存储数据是切实有效的方式。但是在采用分布式数据和信息存储的方式中存储的数据的不安全因素也会随之增加,所以如何保证在分布式计算平台中的数据安全与保护成为我们当今重要的研究课题。同时,对分布式数据和信息存储的研究也可以被应用到如火如荼的云存储领域,因此具有相当广阔的理论研究意义和实践应用价值。有鉴于此,本文针对于分布式数据和信息存储的安全策略研究,从数据的存取模式考虑,设计一种针对于分布平台的、适用于大数据(Big Data)的存储模型及查询机制,同时能够提供数据共享完整性校验功能。论文首先结合开源的Hadoop分布式数据文件系统HDFS的架构和原理,以及对称加密算法和公钥密码体制,提出了一种基于HDFS的分布式数据安全存储模型。该模型采用HDFS和XML格式分别作为数据文件的存储环境和物理结构,不仅可以解决大数据(Big Data)的存储问题,而且还提供了对数据文件的数据访问控制(DAC),实验结果分析了数据加解密的时间和在分布式数据文件系统中数据上传、下载的带宽性能。第二,分布式数据文件共享存储为了保证数据的安全保护,有必要进行周期性的密钥修改,提供有效的密钥管理方法。研究了Chebyshev多项式的周期性和LKH密钥树的密钥管理特点,提出了一种基于Chebyshev多项式和LKH密钥树的周期性组播密钥修改方法。该方法比较适合于分布式大数据(Big Data)平台的密钥修改,与原始LHK方法相比,在效率和安全上有所提高。第三,研究了Bloom Filter算法和Map Reduce编程方式的相关概念和平台。采用Bloom Filter和分布式Map Reduce编程方式相结合的方法来提高密文查询的性能,同时在原始BloomFilter的基础上提出了分层Bloom Filter的思想。实验进一步表明,使用分层Bloom Filter算法可以在一定的程度上降低数据的错误率。第四,设计并实现了一个分布式数据文件存储和查询系统。该系统可以实现了对原始数据的加密上传、解密下载、共享分配、密钥管理以及密文查询的功能。同时,该系统使用B/S系统架构,用户界面良好,可操作性强。