论文部分内容阅读
云计算场景下的数据安全事件频频发生,造成巨大经济损失和社会影响。一个最有效的模式是用户将敏感数据加密后上传至云服务从而实现数据所有权和使用权分离。然而,上述模式带来了新的技术问题与挑战,包括众多云服务有不同的数据格式和应用协议,针对每个云服务的定制化适配耗时耗力且不稳定;针对云服务存储的海量数据中的敏感数据难以实现高效、自动地识别;数据加密和云服务原有功能的保全这一对矛盾难以平衡。针对上述挑战,本文的研究内容和贡献如下:1.针对云存储应用众多难以自适应数据加密问题,设计了面向云计算的自适应数据加密系统CloudCrypt,提出了 JavaScript动态程序分析技术自动化识别数据操作,自适应适配各类云应用实现数据加密保护。CloudCrypt已应用于邮件、存储等典型云应用,且引入性能代价较小。2.针对敏感数据格式多样难以检测识别问题,设计了面向云计算的敏感数据识别与脱敏系统CloudDLP,提出了 CTPN-MASK的端到端文字识别改进模型和BERT-CRF的敏感数据识别模型可有效解决敏感内容识别脱敏场景识别效果差问题。实验证明面向图片和文档的智能识别脱敏准确率分别可达93.4%和97.9%。3.针对数据加密与功能保全难以平衡问题,设计了面向云计算的密文搜索系统EncBox,提出基于安全网关的密文搜索方法和跨网关的数据安全分享方案,无需云提供商配合,在实现数据加密保护的同时还可最大限度保持云服务原有搜索功能。实验表明EncBox既可透明加密保护数据,又可保全原有搜索功能,且引入性能代价较小。