大规模个性化在线视频服务的用户隐私保护

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:hellobaby54088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模在线视频服务系统不仅占据着主要的网络流量和市场份额,并且在用户数量和有效浏览时间方面持续保持巨大优势。个性化推荐服务成为视频网站主要竞争手段的同时带来了用户隐私泄露风险。一方面,推荐系统可以准确推断出性别、年龄等用户配置文件信息,导致用户隐私泄露。另一方面,伪装成普通用户的攻击者可以直接从推荐系统输出中获取目标用户的历史行为记录,进而推断其敏感兴趣偏好,这种隐秘的非直接访问攻击对用户的隐私造成更严重的威胁。实际上,针对个性化推荐和用户隐私保护这一对矛盾,现有的保护用户隐私的推荐方案普遍在二者之间进行权衡,保护用户隐私会造成推荐性能的损失已成为现有研究工作的共识。对于大规模在线视频服务系统,能否以及如何在保护用户隐私信息的同时保证甚至提高推荐服务的质量,成为目前研究的难点。同时,对于其他大规模在线服务系统而言,这也是一个亟待解决的问题。针对此课题,本文首先分析了大规模在线视频服务系统中用户隐私信息泄露的高风险性,以用户性别信息为例,分析了基于少量浏览记录准确推断用户隐私信息的可能性。然后,针对用户性别、年龄等身份信息和敏感兴趣偏好的保护,分别研究了推荐友好的隐私保护框架和基于话题隐私重要度的差分隐私协同过滤算法,实现了在保护用户隐私的同时保证甚至提高推荐服务质量这一研究目标。本文的主要工作及创新点如下:第一,在用户隐私推断方面,为了解决实际在线视频系统中数据的高稀疏性问题,本文分别针对中英文视频系统提出不同的用户行为汇聚方法。具体地说,针对没有分隔符的亚洲语言设计了简单有效的关键词提取算法,针对英文视频系统基于同义词库提出了可极大保留原始信息的用户行为汇聚方法。为解决用户性别分布失衡问题,本文提出了新的评估测度,并基于此建立了改进的隐私推断模型。基于多个大规模在线视频系统数据集的实验证明,相比已有工作,本文方法不仅能有效解决实际系统中的数据高稀疏性和性别分布失衡问题,而且能使性别推断的结果达到整体最优。这一研究验证了在数据高稀疏性的视频系统中少量数据记录暴露用户隐私信息的可能性。第二,为了在保护年龄、性别等用户隐私信息的同时不损失推荐服务性能,本文提出了推荐友好的隐私保护框架。现有做法是在用户观看记录中加入一定的相反类别用户喜爱视频的虚拟打分,在实现模糊用户信息的同时牺牲了推荐的准确性。这种做法忽略了一个重要事实——就单个用户而言,她(他)可能会喜欢统计意义上最受相反类别(性别或年龄组等)用户欢迎的内容。基于这一观察,本文提出一种新的视频相似度计算方法,设计了既能模糊用户性别(年龄)信息又能强化用户兴趣的视频选择策略及视频虚拟打分估算方法。大量实验证明,相较于已有研究的权衡做法,本文提出的推荐友好的隐私保护框架可以在保护用户性别、年龄等用户信息的同时保证甚至提高推荐服务的质量,并且可以推广到类似的书籍、CD、音乐等推荐系统中。第三,针对典型的用户行为记录非直接访问攻击,本文提出基于话题隐私重要度的差分隐私协同过滤算法。现有的差分隐私协同过滤算法,对用户的不同行为记录提供相同强度的保护,虽然推荐的平均误差性能尚可接受,但就实际系统中普遍采用的Top-k推荐而言,推荐性能严重受损。针对这一问题,基于用户对不同行为记录泄露的敏感程度不同这一观察,进一步结合视频系统用户行为显著的稀疏性特征,本文提出在视频话题级别上实现区别隐私重要度的隐私保护。本文提出了话题隐私重要度参数,在同等隐私保护预算的前提下对高隐私重要度的话题提供更强的保护。为了提高个性化推荐服务质量,进一步在用户端依据用户兴趣偏好对推荐系统输出结果重新排序筛选,实现视频的Top-k推荐。实验证实,在同等隐私保护预算的前提下,基于话题隐私重要度的差分隐私协同过滤算法对用户兴趣偏好提供区别性保护的同时,有效提高了协同过滤系统中Top-k视频推荐的精确率和召回率。
其他文献
长江证券公司增发股份引发一系列法律问题,如承销商包销责任性质、承销协议效力、包销数量、主承销商与副承销商连带责任、包销抗辩权等。证券承销商包销责任,其性质是法定还
<正>2003年发生高传染性和高死亡率的SARS疫情以后,尤其是2003年年底、2004年年初在新加坡、台湾以及北京相继发生的SARS病毒实验室感染以后,临床医护人员的生物安全防护、临
目的:探讨外伤后骨折法医临床学鉴定方法与相关注意事项,以期对骨折法医鉴定有所借鉴。方法:选择2017.2~2018.8接收的60例外伤性患者,综合分析所有伤者的影像学检查结果与法医
小城镇发展在县域经济中具有重要的作用,江苏省小城镇发展中存在布局不合理、行政约束大和基础设施落后等不足,江苏省小城镇发展的动力主要来源于乡镇企业、农业产业化、扩大
以534名在校大学新生为研究对象,结合行为变化的跨理论模式,用体育锻炼行为阶段调查表和身体自尊量表(PSPP)考察大学新生身体自尊水平的差异情况。结果显示:大学新生不同锻炼行为
基于非球面设计原理,应用Lucid Shape软件,建立投射式前照灯实体模型,透镜选取不同的直径和焦距获得对应光型,分析透镜直径和焦距对光型的影响,通过比较光型及各个测试点照度
自19世纪以来,法官受制定法的约束问题成为法学方法论研究的主要问题之一。概念法学的理论追求是将法官视为"涵摄机器";自由法学理论则强调法官具有造法的权力,将法官视为"法
歌手许嵩的新歌《胡萝卜须》的发布引发了同名童书《胡萝卜须》在网购平台上的断货,向我们揭示了媒介融合下的媒介之间相互影响的一种内在模式:音乐媒介——"受众"的产生——
针对复杂电磁环境电磁干扰复杂度定性与定量评估问题,该文提出一种基于快速S变换时频空间模型的复杂度评估方法。利用快速S变换方法同步提取时域占用度、频域占用度和能量占
[目的]选育出耐热α-淀粉酶产生菌枯草芽孢杆菌抗噬菌体菌株。[方法]从耐热α-淀粉酶产生菌枯草芽孢杆菌菌株HA06的异常发酵液中分离到了2种噬菌体,将其命名为KB011、KB012。