论文部分内容阅读
在大数据时代,数据挖掘需要海量数据的支撑,政府、企业产生的海量数据都将有可能直接或者间接用于数据挖掘,与此同时数据发布中隐私信息的保护也变得越来越重要。传统加密方式由于破坏了数据的属性信息导致数据无法用于数据挖掘,现有的FPE加密方法仅限于最基本的数据类型的加密,对于身份证、电话号码、中文姓名等具有特定数据特征的数据不但效率和安全性偏低而且密文也不符合保留格式加密的要求。针对以上问题,本课题展开了对多类型数据保留格式加密的研究。论文首先回顾了保留格式加密技术的发展历程,对国内外发展情况做了总结。其次对FPE的几种典型算法和模型进行分析,并针对各种算法的特点来选择其适用的场景。之后,基于基本数据类型的保留格式加密算法,结合各种特征数据(如身份证号、银行卡号等)的分段特性,提出了分段加密的模型并实现了特征数据的保留格式加密。另外,鉴于目前保留格式加密在中文姓名方面还没有实质性的进展,本文针对中文姓名的特点提出了 Cycle-Prefix算法以及基于姓名库的中文姓名的保留格式加密模型,能够使加密后的中文姓名仍符合命名习惯。针对大数据发布的特性,为方便在数据发布中的加解密,本文实现了基于数据文件的保留格式加密系统,实现数据的自动拆包和封包,大大提高了数据加密的效率,同时还在Hadoop平台上实现了数据的保留格式加密,方便在数据量大的情况下完成数据的加密任务。本文在最后对多种类型的保留格式加密系统的各个模块的功能和性能进行了测试,与传统保留格式加密做了对比,分析了本系统相比于传统FPE的优势与改进。本文就保留格式加密在多个方面提出了新的实现思路,旨在扩展保留格式加密的应用范围并解决保留格式加密在中文加密和大数据加密方面的问题。