论文部分内容阅读
物联网和智能传感设备的迅猛发展,使得许多领域都发生了革命性的变化,包括电子商务、医疗保健、环境监测、交通和能源。这些低成本的普遍传感设备产生和收集了大量信息数据,为机器学习和数据挖掘等大数据技术提供了良好的发展平台。同时,具有GPS定位功能的IP可视化设备能够将人和物的地理位置数据化,人们可以通过使用位置感知应用程序来进行地图导航、社交软件的位置共享、实时查询交通信息。虽然位置信息为消费者提供了优质的个性化服务,但这些实时记录用户位置和移动轨迹的数据传入到互联网云端后,被恶意攻击者进行挖掘分析,对个人隐私造成极大威胁。因此,需要在已有位置隐私保护研究成果的基础上,设计新的解决方案和算法来应对位置大数据隐私泄露的挑战。差分隐私保护是一种独立于对手先验知识的新范式,能够通过增加随机噪声使数据内部轻度失真,在保持外部统计特性不变的情况下来保护敏感数据。聚类分析可以从大量的没有直接关联的数据中挖掘出有价值的知识和规则,是数据分析处理的重要工具。本文根据位置大数据的结构特性,结合差分隐私和聚类分析二者的优点,提出面向位置大数据的差分隐私聚类方法,主要完成的工作如下:(1)比较分析了近年来流行的位置隐私保护技术,根据它们的性能优缺点研究出位置差分隐私保护模型,给出了混合位置大数据的预处理方法,对差分隐私预算?进行了合理分配。(2)提出了一种面向位置大数据的降维聚类算法RD-means,引入同步轨迹距离的概念来划分聚类簇,再由聚类簇中数据点集的分布状况配置特征权重参数的目标函数,根据临近搜索策略寻找最优的中心点,在簇间替换掉相互重叠的数据记录完成聚类,降低了位置数据的维度和冗余度。(3)在预处理的环境下,设计了一种面向位置大数据的差分隐私聚类算法DPKD,选取k个随机元素添加Laplace噪声让中心点偏移,使其满足?-差分隐私保护机制,同时也取得高效聚类结果。(4)针对位置数据和非位置信息记录分布不均衡的情况,提出一种改进的差分隐私聚类算法Op-DPKD,以原聚类中心点作为参考对象,选取一个新的元素点作为聚类中心进行对比,引入相对误差的比较,遍历搜索到最优的聚类中心,减少了因随机中心点对初始位置过于敏感而引起的距离误差,取得了更好的稳定性和聚类效果。