互联网环境下信息服务隐私保护技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wuww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,个性化技术在提升互联网信息服务质量方面发挥了重要的作用。伴随个性化思想的普及,各类互联网应用愈发关注用户个人的信息需求。很多方案尝试从各种渠道收集用户数据,建立用户(兴趣偏好)模型,并在此基础上提供个性化信息服务。同时,这些应用在服务过程中生成和发布的用户(行为)日志,由于可以支持用户行为模式研究和多种复杂的数据挖掘任务,受到了科研工作者的广泛关注。遗憾的是,用户数据中往往包含大量个人私密信息,对其过度开发会导致严重的隐私问题,不但引起个人用户的恐慌,也会抑制服务提供商开发和分享用户数据的热情。这势必成为互联网信息服务进一步发展和推广的巨大障碍。  因此,提供成熟有效的隐私保护技术已经成为互联网信息服务的当务之急。然而到目前为止,该需求并没有得到广泛的重视,大多数研究者仍然只专注于进一步开发用户数据以提高信息服务的质量。即便是有限的几个关注隐私保护的工作,也远不够理想。它们通常仅适用于互联网信息服务某个数据操作阶段中的特定隐私问题,且彼此不能协同工作。因此,本文主要研究支持隐私保护的信息服务,实现能够解决信息服务不同阶段隐私问题的完备方案。  首先,本文对信息服务个性化技术和隐私保护技术进行了回顾,分别面向传统关系数据处理和互联网应用,全面介绍了主流的隐私定义、保护模型和算法。在此之后,我们重点分析了互联网环境下面向信息服务的隐私保护问题的新特性,以及将现有技术应用于该问题会产生的缺陷和不足。基于分析结果,我们明确了实现支持隐私保护的信息服务所面临的挑战,并引出了本文的研究内容。  其次,本文基于对信息服务中两个典型应用场景应用特性和隐私保护需求的深入分析,提出了一个支持隐私保护的信息服务的总体技术框架。该框架由三个核心组件构成,分别针对客户端、网络端和服务端不同的数据操作环节,提供相应的隐私保护技术。这三个核心组件基于一个统一的层级结构的本体知识库(在大多数主流的信息服务实现策略中都有提供),能够彼此协同工作,在信息服务全程对用户隐私提供递进层级的保护。  面向技术框架所关注的第一个应用场景(即个性化信息服务中的在线交互)我们提出了一个支持隐私保护的交互模型UPS,该模型可以同时基于用户定制的隐私需求和提交的信息请求,通过用户模型泛化技术在线生成个性化服务所需的上下文。我们的在线上下文生成技术主要专注于在两个预测性质衡量指标:“个性化可用性”和“隐私风险”之间进行权衡。为此,我们实现了两种在线上下文生成的贪婪算法:GreedyDP和GreedyIL。我们同时提供了一种可以在线判定是否对信息请求进行个性化处理的机制,用于提高信息服务质量的稳定性。通过大量的实验,我们验证了UPS交互模型的有效性,并证明GreedyIL算法相较于GreedyDP在性能上的优势。  对于第二个应用场景(即互联网用户日志在线生成与发布)中的隐私保护问题,我们提出了一种新型的匿名发布技术,将数据发布为匿名化处理的“时间序列”(TemporalSeqeunce,简称TES),最大限度地保留原有数据的模式和时间信息。我们的方案基于一种新型的隐私模型“(k,w)匿名”实现。该模型将用户背景知识建模为时间受限(小于w个时间单位)的数据库投影,并要求发布数据中每个TES基于任何生命周期小于w的投影数据库,都无法和其他k-1个TES被区分开。基于泛化技术和滑动窗口模型,我们提出了一种高效的算法框架,可以通过不同的全局或局部编码方法,实现对TES数据库的近似最优(k,w)匿名发布。同时,我们通过对该框架进行时间稀疏性消除和并行化扩展,进一步加强了其对于真实序列数据的可用性。在实验中,我们通过AOL发布日志生成了一个大规模的TES数据集。基于该数据集和另一个合成数据集,对我们的匿名发布方案的可用性、执行性能和伸缩性进行了验证,并比较分析了发布框架基于不同编码方法和衡量指标实现时各种性能指标的区别。
其他文献
学位
全局优化技术的应用领域非常广泛,许多实际工程优化问题都能归结为全局优化问题进行求解,这就极大地促进了全局优化技术的兴起和发展。而非线性优化是优化领域内比较难以求解的
现在图像处理被应用到了很多行业中,如军事武器系统和医疗影像系统,因此图像处理变得越来越重要。图像分割技术是图像处理众多关键技术中的一种,起步于上个世纪七十年代,到目
专利文献是技术情报的载体,它的文本中隐藏了大量的技术情报信息,是技术情报消息的最佳情报来源。随着新中国的快速发展,我国专利的申请数量已在逐年升高,至2016年已经连续第
随着科技的快速发展,各个行业领域对数字图像的运用也日益增多,图像分割是图像处理的一种基本技术,因此逐渐受到人们的重视。图像分割方法可以解释为把图像分成特征有差异的
K-近邻算法作为一种理论上比较成熟且简单有效的分类算法,已经得到了广泛的研究和应用。但是K-近邻算法易受噪声影响且不能处理多模态分布的问题;另外传统K-近邻算法认为每个
随着面向服务架构(Service-oriented Architecture, SOA)的发展,SaaS (Software as a Service)服务作为一种新型的软件服务模式凭借其按需租用、易于维护、便于扩展等特点改
根据卫生部《生活饮用水卫生布标准》(GB5749-2006)的规定,余氯浓度是衡量管网水质的重要指标。因此,加强对余氯浓度的研究是改善供水管网水质的一种比较有效的手段。当前,对于管
低密度校验码(Low-Density Parity-Check codes, LDPC codes)是一种逼近香农限的现代编码技术,已成为当今信道编码领域的研究热点之一。由于低密度校验码具有译码复杂度低、纠
近年来,随着交通运输业的发展,交通事故已成为当前各国所面临的严重问题。其中,疲劳驾驶是导致交通事故的一个重要因素。因此,对于驾驶疲劳检测方法的研究已经成为一个重要课题。