论文部分内容阅读
在医疗、金融、户籍管理等涉及国计民生的国家基础信息网络和重要信息系统中,存在着大量的隐私数据,其中,许多包含敏感信息的数据都是大样本数据,数据可视化技术可以辅助用户快速准确地发掘其中隐含的信息,如何对包含敏感信息的大样本数据进行可视化是本文的主要研宄内容。本文研宄2006年由Dwork等人首次提出的差分隐私保护方法,差分隐私保护方法首次定义了一个严格的攻击模型,通过添加噪声使数据失真,从而达到隐私保护的目的。差分隐私保护方法具有两大优点:①隐私披露风险与攻击者所具有的背景知识无关。②隐私保护所添加的噪声量不随数据集的增大而增加。由于差分隐私保护仅通过添加与数据集大小无关的少量噪声,就能达到高级别的隐私保护,极大的保证了数据可视化的可用性,因而非常适合于解决大样本数据的安全可视化问题。数据可视化通过数据聚合来减少可视化中的图像叠加,提高大样本数据可视化质量,差分隐私保护数据聚合的难点在于①数据聚合中的聚簇数量往往很大,噪音的添加使得聚合的成功率极低。②迭代次数的不确定性导致隐私预算消耗过快,一旦隐私预算耗尽,则难以实现有效的隐私保护。本文在上述背景下提出,研宄“差分隐私保护下的数据聚合及其在数据可视化中的应用”,包括以下四个内容:1.研宄获取&差分隐私保护的理论和方法,分析了交互式与非交互式框架下的差分隐私保护机制,列举了几种攻击模型下,差分隐私保护方法与A:-匿名和[diversity相比所具备的优势。差分隐私保护方法隐私预算的消耗速度与敏感度有着密切的关系,本文对几种特定情况下敏感度的界进行了分析。2.在对大样本数据进行可视化时,通常先对数据进行聚合处理,以减少可视化中的图像交叠、重合的现象,从而提高大样本数据的可视化图像质量。聚类是数据聚合的基本手段,本文研宄差分隐私保护下的聚类算法,针对差分隐私yt-means聚类可用性差的问题,在满足~差分隐私保护的基础上,通过改进初始中心点的选择,提出了一个IDPhmeans聚类方法,与现有的隐私保护yt-means聚类方法相比,IDPA-means聚类方法在同样的隐私保护级别下,提高了聚类可用性。为了更具客观性,我们引入了隐私保护聚类的同类算法与IDP yt-means聚类方法进行了比较,通过仿真实验可得出结论,IDP yt-means的聚类质量在各项指标上的表现更具优势,尤其在大样本数据集上的优势会更加明显。3.聚合与聚类算法的不同之处在于聚合算法需要支持数量更大的聚簇。很多聚类算法在聚簇数目较大的情况下,往往会出现聚类可用性低,迭代次数大,兑法效率低等问题。本文提出了一种均分/t-means++数据聚合算法,以数据可视化为口的对算法进行了改进,使算法支持高效地聚合为更多的簇。聚合得到的数据既较好地保持了原数据空间的大部分特性,又显著提高了可视化后的图像质量。仿真实验证明,在不同的DAL下,无论是图像质量还是质量评价指标HDM,NNM上,算法都表现出了较好的效果。4.差分隐私保护下的数据聚合方法是本文的主要研究内容之一,本文提出了一种差分隐私DPEfmeans数据聚合算法,在保护隐私数据的同时,解决了大样木数据可视化中数据重叠严重,图像质量低的问题,聚合后的数据较好的保持了原数据柒的分布、关联、聚柒等特性。^IDPlmeans算法相比,在同等隐私保护级别c-差分隐私保护下,DPElmeans提高了所能支持的最大DAL,即成功聚为更多的簇。聚合后的点在原数据集上的分布史加均匀,农征数据聚合质量的相关指标值有所提A’,算法运行时间比传统A-means聚合减少了-半以上。