论文部分内容阅读
大数据时代的到来和互联网的蓬勃发展催生了大量的移动对象轨迹数据,基于这些轨迹数据的研究及应用在城市规划、用户行为分析、频繁模式挖掘等方面发挥着重要的作用,并对人们的生产及生活方式产生了极大的影响。然而,轨迹数据蕴含了移动用户在时空维度上的丰富信息,直接发布个人轨迹数据及位置统计信息会泄露用户的隐私信息。
现有的轨迹发布算法主要依托于批处理平台,而很少关注流场景下的实时隐私保护处理。轨迹流数据的高速、海量及不确定性等自身特性得在轨迹数据流上做到实时隐私保护处理显得尤为困难。而且,在当前的基于位置数据的统计直方图发布中,很少提供实时的隐私保护支持。针对以上问题及挑战,面向位置数据的隐私保护发布框架研究了基于轨迹数据流的实时查询及隐私保护发布,其包含两个并行执行的模块,分别为流式轨迹数据发布(TrajectoryStreamingPublish,简称TSP)和访客计数发布(VisitorCountRelease,简称VCR)。TSP是一种基于kt-trajectoryprivacy隐私模型发布流式轨迹数据的新颖模块,根据用户的个人轨迹查询请求实时反馈经隐私保护处理后的合成轨迹段,并保证满足不同查询者的个性化隐私偏好。具体而言,TSP对预查询轨迹按时间窗口进行分段及隐私预算分配,在进行元组数据的采样和泛化处理操作后返回新的合成轨迹,此外,VCR模块可以对基于位置数据分布的统计直方图进行周期性发布,其包括两种区域访客计数直方图Ht和CHt的发布算法,以及一种支持自适应分组的直方图AGn发布算法,以便更好地对位置统计信息进行发布。
实验结果表明,在流式轨迹隐私保护发布过程中,较低的隐私预算会对输出结果添加较多的噪声,将使得原始轨迹与合成轨迹之间的偏差增大。而且,路网面积较大的数据集适合搭配较大的时间窗口长度t,而对于路网面积较小,且轨迹距离及耗时都较短的数据集,较小的t值是更佳的选择。此外,与传统的轨迹发布算法N-grams相比,TSP模块在隐私保护及数据可用性方面都实现了更好的发布效果。与区域访客计数直方图发布算法Ht相比,提出的基于自适应分组的直方图发布算法AGn在相同级别的隐私保护下取得了更好的区域访客计数准确性效果。最后,当选择合适的参数配置时,提出的框架及算法在有效地保证隐私性的同时实现较高的数据可用性。
现有的轨迹发布算法主要依托于批处理平台,而很少关注流场景下的实时隐私保护处理。轨迹流数据的高速、海量及不确定性等自身特性得在轨迹数据流上做到实时隐私保护处理显得尤为困难。而且,在当前的基于位置数据的统计直方图发布中,很少提供实时的隐私保护支持。针对以上问题及挑战,面向位置数据的隐私保护发布框架研究了基于轨迹数据流的实时查询及隐私保护发布,其包含两个并行执行的模块,分别为流式轨迹数据发布(TrajectoryStreamingPublish,简称TSP)和访客计数发布(VisitorCountRelease,简称VCR)。TSP是一种基于kt-trajectoryprivacy隐私模型发布流式轨迹数据的新颖模块,根据用户的个人轨迹查询请求实时反馈经隐私保护处理后的合成轨迹段,并保证满足不同查询者的个性化隐私偏好。具体而言,TSP对预查询轨迹按时间窗口进行分段及隐私预算分配,在进行元组数据的采样和泛化处理操作后返回新的合成轨迹,此外,VCR模块可以对基于位置数据分布的统计直方图进行周期性发布,其包括两种区域访客计数直方图Ht和CHt的发布算法,以及一种支持自适应分组的直方图AGn发布算法,以便更好地对位置统计信息进行发布。
实验结果表明,在流式轨迹隐私保护发布过程中,较低的隐私预算会对输出结果添加较多的噪声,将使得原始轨迹与合成轨迹之间的偏差增大。而且,路网面积较大的数据集适合搭配较大的时间窗口长度t,而对于路网面积较小,且轨迹距离及耗时都较短的数据集,较小的t值是更佳的选择。此外,与传统的轨迹发布算法N-grams相比,TSP模块在隐私保护及数据可用性方面都实现了更好的发布效果。与区域访客计数直方图发布算法Ht相比,提出的基于自适应分组的直方图发布算法AGn在相同级别的隐私保护下取得了更好的区域访客计数准确性效果。最后,当选择合适的参数配置时,提出的框架及算法在有效地保证隐私性的同时实现较高的数据可用性。