论文部分内容阅读
随着计算机网络和大数据技术的飞速发展,敏感数据和个人隐私泄露的情况也越来越严重。负调查是一种可以在收集敏感数据的同时保护参与者个人隐私的调查方法,已有的关于负调查的研究主要是基于特定假设的模型,例如负选项被选的概率服从均匀分布或者高斯分布,然而,在由用户手动填写的真实负调查中,负选项被选的概率可能不服从任何分布。并且,根据笔者的文献调研,负调查最初应用于网络数据的收集,在已有的负调查的研究中,还没有研究者通过参与者手动填写问卷的方式收集数据来实施负调查。本文通过在真实环境中实施由参与者手动填写的负调查,分析了由参与者手动填写的真实负调查在数据分布和数据重构方面的特征,并提出了两种较适合于由参与者手动填写的真实负调查的重构算法。本文主要工作如下:(1)在真实环境中实施了由参与者手动填写的负调查及其相对应的正调查。本文通过分析在校大学生在学习和生活中的隐私问题,同时结合负调查的特点,设计了包括匿名的正调查、实名的负调查以及实名的正调查三个部分的调查问卷,并在武汉理工大学和中国地质大学(武汉)两所学校实施了调查。在数据清理后得到各部分的有效数据分别为811、550、528份。在数据初步统计后,分析了由参与者手动填写的真实负调查数据的特点,并得出了一些有关由参与者手动填写的真实负调查在数据分布和数据重构方面的特征。(2)提出了一种基于背景知识的负调查重构算法NStoPS-M。本文通过分析实名的负调查和实名的正调查两部分采样的数据,得到采样矩阵,并以此为背景知识,提出了负调查重构算法NStoPS-M。实验结果表明,对于问卷中的大多数(10/15)题目,NStoPS-M可以取得比已有的重构算法NStoPS和NStoPS-I更准确的结果。同时,本文通过实验分析了NStoPS-M重构的正数据在采样数量和采样选项数方面的规律。(3)提出了一种基于最大似然估计的负调查重构算法NStoPS-MLE。由于NStoPS-M重构的正数据存在负值问题,本文通过分析负选项被选的特征,结合多项分布的概率公式和负调查本身的约束条件,提出了一种可以在负选项被选结果已知时,计算取得最大似然估计的某个正数据值的方法,并针对这一思想提出了负调查重构算法NStoPS-MLE。实验结果表明,对于问卷中的大多数(12/15)题目,NStoPS-MLE可以取得比NStoPS、NStoPS-I以及NStoPS-M更准确的结果,并且解决了NStoPS-M的负值问题。同时,本文通过实验分析了NStoPS-MLE重构的正数据在采样数量和采样选项数方面的规律。本文实施了由参与者手动选择的真实负调查,在分析了由参与者手动填写的真实负调查特征的基础上,提出了基于背景知识的负调查重构算法以及基于最大似然估计的负调查重构算法,通过实验验证了它们的准确性,并且分析了运用它们重构的正数据在结果准确度方面的一些特征。本文的工作可以给负调查的理论研究以及应用研究提供一些有意义的指导。