多类型数据保留格式加密技术的研究与实现

来源 :北京邮电大学 | 被引量 : 8次 | 上传用户:liongliong457
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,数据挖掘需要海量数据的支撑,政府、企业产生的海量数据都将有可能直接或者间接用于数据挖掘,与此同时数据发布中隐私信息的保护也变得越来越重要。传统加密方式由于破坏了数据的属性信息导致数据无法用于数据挖掘,现有的FPE加密方法仅限于最基本的数据类型的加密,对于身份证、电话号码、中文姓名等具有特定数据特征的数据不但效率和安全性偏低而且密文也不符合保留格式加密的要求。针对以上问题,本课题展开了对多类型数据保留格式加密的研究。论文首先回顾了保留格式加密技术的发展历程,对国内外发展情况做了总结。其次对FPE的几种典型算法和模型进行分析,并针对各种算法的特点来选择其适用的场景。之后,基于基本数据类型的保留格式加密算法,结合各种特征数据(如身份证号、银行卡号等)的分段特性,提出了分段加密的模型并实现了特征数据的保留格式加密。另外,鉴于目前保留格式加密在中文姓名方面还没有实质性的进展,本文针对中文姓名的特点提出了 Cycle-Prefix算法以及基于姓名库的中文姓名的保留格式加密模型,能够使加密后的中文姓名仍符合命名习惯。针对大数据发布的特性,为方便在数据发布中的加解密,本文实现了基于数据文件的保留格式加密系统,实现数据的自动拆包和封包,大大提高了数据加密的效率,同时还在Hadoop平台上实现了数据的保留格式加密,方便在数据量大的情况下完成数据的加密任务。本文在最后对多种类型的保留格式加密系统的各个模块的功能和性能进行了测试,与传统保留格式加密做了对比,分析了本系统相比于传统FPE的优势与改进。本文就保留格式加密在多个方面提出了新的实现思路,旨在扩展保留格式加密的应用范围并解决保留格式加密在中文加密和大数据加密方面的问题。
其他文献
近年来,随着财政、税务等部门及金融、石化等关系国计民生的行业信息化程度不断提高,国家审计获取被审计单位数据并开展审计的深度、广度以及频率都大幅提升,审计数据呈现数
提出了一种基于词频的机械匹配自动分词算法,以长度为首优先,结合词频进行分词,未匹配字串进一步应用改进的正向和逆向的最大匹配法,结合熵率分词分别标注所有可能为词的元素
一、新型超薄板剖切机的特点1、适用范围广:生产效率高。该新型剖切机主机采用目前国内石材市场普遍使用的金刚石圆盘锯石机,只要锯石机的运行精度达到出厂精度80%以上,就可与该
特发性肺纤维化(IPF)是一种慢性、进行性、纤维化性的间质性肺疾病,需要长期管理以延缓疾病、改善预后。临床医生需要针对IPF患者的实际情况采取个体化的疾病管理策略,包括抗
傅斯年是中国近代历史上著名的学者.他的学术思想具有时代性、实用性、矛盾性等特点,并不可避免地存在一些局限性.但无论如何,在近代学术发展过程中,傅斯年的成就和影响都是
信息技术的飞速进步使得大数据的产生成为可能,大数据是继云计算和物联网之后的又一热词,它受到各界的极大追捧和关注。大数据的特性可以概括为“4V”,即Volume海量的数据规