论文部分内容阅读
随着数据规模的增长和网络商品经济的发展,推荐算法的重要性不言而喻。推荐算法旨在利用数据挖掘等技术为用户提供个性化推荐。在具体的商品推荐中需要利用用户对商品的反馈,这其中不可避免地存在着泄露用户隐私的风险。差分隐私具有高隐私性特点,已成为隐私保护领域的一个通用标准。本文就其中两个具体的问题,研究了面向商品推荐的差分隐私保护算法。其一,针对频繁项集挖掘的隐私保护研究。商品推荐过程中,历史消费数据充足时,为了发现商品-商品之间潜在的联系,推荐系统往往需要挖掘频繁项集,这一过程需要保护用户对商品的历史消费和评价等隐私信息。为此,本文研究了在保护差分隐私的要求下,高维数据集中挖掘频繁项集的问题,并提出了PrivBUD-Wise算法。与传统算法会导致额外的信息损失不同,PrivBUD-Wise算法不对原始数据集做任何改动,通过合理分配隐私预算来提高算法效用。为了实现这一目标,本文提出了一个新的差分隐私保护机制:SRNM机制,并对其作了严格的数学证明。另外,PrivBUD-Wise算法率先提出一种有偏隐私预算分配策略,更充分地利用频繁项集挖掘问题的特点,在数据效用和时间效率上取得了改进。本文通过三个真实数据集上的对比实验,验证了 PrivBUD-Wise算法相对于现有算法的有效性。其二,针对多臂老虎机的隐私保护研究。商品推荐过程中,历史消费数据不足时,新用户或新物品的推荐基于多臂老虎机的强化学习算法,这一过程需要保护用户对所推荐商品的反馈等隐私信息。本文就此基于现实应用场景,在带侧面观察的随机性多臂老虎机问题的基础上,提出了考虑侧面收益的情况,并给出了后悔值上界得到保证的UCB-Side算法。在融入差分隐私保护机制时,本文首先基于传统的隐私保护技术提出了 DP-UCB-Side算法,最后基于其提出了改进方案:DP-UCB-INT-Side算法。本文通过大量的对比实验验证了 UCB-Side算法和DP-UCB-INT-Side算法的高效用性。