论文部分内容阅读
近年来,个性化技术在提升互联网信息服务质量方面发挥了重要的作用。伴随个性化思想的普及,各类互联网应用愈发关注用户个人的信息需求。很多方案尝试从各种渠道收集用户数据,建立用户(兴趣偏好)模型,并在此基础上提供个性化信息服务。同时,这些应用在服务过程中生成和发布的用户(行为)日志,由于可以支持用户行为模式研究和多种复杂的数据挖掘任务,受到了科研工作者的广泛关注。遗憾的是,用户数据中往往包含大量个人私密信息,对其过度开发会导致严重的隐私问题,不但引起个人用户的恐慌,也会抑制服务提供商开发和分享用户数据的热情。这势必成为互联网信息服务进一步发展和推广的巨大障碍。 因此,提供成熟有效的隐私保护技术已经成为互联网信息服务的当务之急。然而到目前为止,该需求并没有得到广泛的重视,大多数研究者仍然只专注于进一步开发用户数据以提高信息服务的质量。即便是有限的几个关注隐私保护的工作,也远不够理想。它们通常仅适用于互联网信息服务某个数据操作阶段中的特定隐私问题,且彼此不能协同工作。因此,本文主要研究支持隐私保护的信息服务,实现能够解决信息服务不同阶段隐私问题的完备方案。 首先,本文对信息服务个性化技术和隐私保护技术进行了回顾,分别面向传统关系数据处理和互联网应用,全面介绍了主流的隐私定义、保护模型和算法。在此之后,我们重点分析了互联网环境下面向信息服务的隐私保护问题的新特性,以及将现有技术应用于该问题会产生的缺陷和不足。基于分析结果,我们明确了实现支持隐私保护的信息服务所面临的挑战,并引出了本文的研究内容。 其次,本文基于对信息服务中两个典型应用场景应用特性和隐私保护需求的深入分析,提出了一个支持隐私保护的信息服务的总体技术框架。该框架由三个核心组件构成,分别针对客户端、网络端和服务端不同的数据操作环节,提供相应的隐私保护技术。这三个核心组件基于一个统一的层级结构的本体知识库(在大多数主流的信息服务实现策略中都有提供),能够彼此协同工作,在信息服务全程对用户隐私提供递进层级的保护。 面向技术框架所关注的第一个应用场景(即个性化信息服务中的在线交互)我们提出了一个支持隐私保护的交互模型UPS,该模型可以同时基于用户定制的隐私需求和提交的信息请求,通过用户模型泛化技术在线生成个性化服务所需的上下文。我们的在线上下文生成技术主要专注于在两个预测性质衡量指标:“个性化可用性”和“隐私风险”之间进行权衡。为此,我们实现了两种在线上下文生成的贪婪算法:GreedyDP和GreedyIL。我们同时提供了一种可以在线判定是否对信息请求进行个性化处理的机制,用于提高信息服务质量的稳定性。通过大量的实验,我们验证了UPS交互模型的有效性,并证明GreedyIL算法相较于GreedyDP在性能上的优势。 对于第二个应用场景(即互联网用户日志在线生成与发布)中的隐私保护问题,我们提出了一种新型的匿名发布技术,将数据发布为匿名化处理的“时间序列”(TemporalSeqeunce,简称TES),最大限度地保留原有数据的模式和时间信息。我们的方案基于一种新型的隐私模型“(k,w)匿名”实现。该模型将用户背景知识建模为时间受限(小于w个时间单位)的数据库投影,并要求发布数据中每个TES基于任何生命周期小于w的投影数据库,都无法和其他k-1个TES被区分开。基于泛化技术和滑动窗口模型,我们提出了一种高效的算法框架,可以通过不同的全局或局部编码方法,实现对TES数据库的近似最优(k,w)匿名发布。同时,我们通过对该框架进行时间稀疏性消除和并行化扩展,进一步加强了其对于真实序列数据的可用性。在实验中,我们通过AOL发布日志生成了一个大规模的TES数据集。基于该数据集和另一个合成数据集,对我们的匿名发布方案的可用性、执行性能和伸缩性进行了验证,并比较分析了发布框架基于不同编码方法和衡量指标实现时各种性能指标的区别。