论文部分内容阅读
作为一种通过共享软硬件资源为用户提供按需服务的新型计算方式,云计算具有经济性、便捷性等优势,得到了越来越多用户的认可。然而,为防止用户数据直接暴露给云服务提供商,用户往往会将数据以密文的形式上传至云端服务器,由此就导致了传统方法无法对密态数据进行分类、检索等更进一步的操作的问题。从而,如何在保护数据隐私性的同时,实现密文的高效计算,就成为了当前隐私保护密文计算领域亟待解决的关键问题。决策树分类算法作为分类算法中的常用算法,其在对明文数据分类时具有精度高、可扩展性强以及可解释性强等优势,然而在对密态数据分类时,决策树分类算法存在着诸如抗数据扰动能力较差、云端服务器训练模型无法完全适应现实密态数据特性以及分类精度下降明显等问题。针对以上问题,本文提出了一种基于同态加密算法的隐私保护梯度提升决策树近似分类算法,以期实现云服务器对用户密态数据更高精度、更强鲁棒性的近似分类。本文的主要工作包括:(1)针对同态加密无法直接对密文数据进行决策树分类的问题,基于同态加密算法的密文结构是多项式的事实,通过引入等价替代的思想,本文给出了将决策树模型转化为多项式的方法,并对其正确性给出严格的数学证明。同时,通过计算次序的合理调整,将最为耗时的同态密文乘法次数的渐进阶由O(n)降低到O(lngn)。(2)针对同态密文数据无法直接进行密文比较的问题,本文基于近似的思想引入含参Sigmoid函数和Chebyshev多项式对Sign函数进行逼近,从而实现密文近似比较。针对同态加密算法下进行决策树分类计算效率较低的问题,基于模型集成的思想,本文使用梯度提升决策树进一步降低了同态计算深度。同时,严谨的理论推导证明了所提算法的收敛性,并从理论上给出了近似误差上界。(3)本文在公开的基准数据集上进行了实验,并使用竖直装载方式对算法进行了进一步优化,实现了对多个明文的批量处理。实验结果表明所提算法的实际近似误差符合理论上界,且具有较强的鲁棒性。