论文部分内容阅读
在小微数据的发布过程中,传统聚类保护算法采用固定簇集大小进行聚类,并将簇中所有敏感属性所属元组打乱的方式进行匿名,这样将造成大量信息损失.据此,首先按匿名的最低要求生成固定大小簇集,后分析簇外元组与簇集距离,判断是否入簇,再从生成不定大小的簇集出发,采用循环取代匿名的方式进行元组匿名,最后,通过仿真实验对比循环取代匿名的方式和直接无序打乱匿名的方式在变化数据集的大小及改变准标识符的个数的情况下的信息损失率,试验证明循环取代匿名的方式提高了数据发布的质量.