论文部分内容阅读
【摘要】:随着计算机技术、网络连接性的迅速发展,磁盘存储空间日益增加,包含个人信息的数据收集的种类和数量呈指数增长。为了进行数据挖掘,数据所有者需要发布这些包含个人信息的数据。然而,对个人隐私的关注阻碍了个人数据的任意发布。因此,发布个人数据的同时不泄露数据中的敏感信息已经成为了一个普遍的问题。
【关键词】:隐私保护数据挖掘;分布式;水平划分;垂直划分
1.分布式隐私保护
分布式隐私保护:当应用环境复杂化,存在两个或两个以上的原始数据提供方的数量时,称为分布式数据分布环境。带有独立挖掘方的两方分布式环境如图 1 (b)所示,原始数据提供方 A 和原始数据提供方 B 为部分原始数据的持有者,双方提交数据至挖掘方完成整体数据的挖掘工作。分布式环境下亦可由多个数据提供方之间自行协同承担挖掘工作,即环境中可以不存在独立的数据挖掘方,如图 1 (c),原始数据提供方 A和原始数据提供方 B 通过可信第三方(非必须),约定通信和计算协议后,双方交互完成挖掘工作。分布式数据挖掘环境中又以数据记录的不同分布状态,分为水平分布和垂直分布。若数据记录的各记录条目分布于不同节点时,称为水平分布;反之,若数据记录的各属性分布于不同节点时,则称为垂直分布。可以看出,数据分布特征仅针对环境中原始数据的分布特性,与其他单元的分布情况无关,如可信第三方或挖掘方的分布情况。另外,在一些分布式环境中,还定义了全分布式环境 Fully-DistributedEnvironment,主要指节点数量
远大于每个节点持有数据记录的数量。
图1 数据分布类型
不同的数据分布特征需要采用相适应的隐私保护方法,其中,在集中式环境下,主要基于数据扰乱技术实现数据挖掘的隐私保护方法,分布式环境中,考虑到多方参与时安全问题的复杂性,以及参与方相互之间的不信任性,以加密机制为主要隐私保护手段,实现高安全度的隐私保护方法。
在分布环境下,数据分布有两种情况:数据垂直分布和数据水平分布
●数据的垂直分布
是指数据按照属性值的不同分布在不同的站点,每个站点共享标签属性,并且拥有自己的部分属性。在进行数据挖掘时,每个站点只知道对方站点的属性名称,而对方站点的属性值却并不知道。例如某地银行希望和电信公司共同进行数据挖掘,他们各自的数据库中拥有相同的人的不同数据。银行拥有客户A的工资!存款!贷款情况等等,而电信公司拥有客户A的通信消费记录。工作单位等数据"这样的数据分布即为数据垂直分布"。
●数据的水平分布
是指数据按照记录的不同而分布于不同的站点,每个站点拥有不同的记录,而每条记录拥有相同的属性名称"例如某地农业银行和建设银行拥有一群不同用户的相同属性和类的数据,如工资!存款!贷款情况等等,他们希望共同进行数据挖掘,这样的数据分布情况即为数据水平分布"。分布式数据的隐私保护挖掘算法,根据数据分布情况的不同,采取的策略也不相同,下面我们会对垂直分布和水平分布的数据所采用的方法进行分类介绍。
2. 分布式隐私保护数据挖掘
在大部分情况下,分布式环境下的隱私保护的目标是:在不牺牲多方的数据隐私性的前提下,允许数据挖掘者在全部的数据上进行聚类统计,并产生有价值的统计结果供自己再企业发展中产生有益的决策。因此,参与方会希望多方相互合作去产生有利的统计分析结果,但是很多情况下又不敢完全相信对方。因此,数据集被水平分割或者垂直分割到多个云端。在水平分割的数据集合总,实体的数据记录被分在多个实体方存储。在垂直分割中,实体的每条记录通常含有多个相同的属性,一个数据集被按照属性分在多个云端节点。这两种分割方法都给分布式隐私保护数据挖掘带来了新的挑战。
分布式隐私保护数据挖掘问题与密码学有很大的关系:多方参与者之间的安全计算。密码学的常见方法是通过多个参与者提供不同的输入,参与者不了解别人的输入,通过一个共同的函数来产生最后的聚类结果。例如:在两个参与者的情况下,Alice和Bob分布输入x和y,这时两个人都要去计算公式f(x,y),但双方都不希望自己的输入泄露给对方。这种情况,可以扩展到k个参与者,每个参与者有一个输入参数,最后需要计算h(x1,…xk),同样参与者不希望其他的人知道自己的输入。基于这种情况,产生了很多的数据挖掘算法如:标量积协议运算(ScalarProduct)、安全求并集运算(SecureSetUnion)、安全求交集大小运算(SecureSizeofSetIntersection)安全求和运算(SecureSum)。要计算相关的公式,必须设计出相关的协议使得多放的输入参数集合起来但并不损害多方的隐私。通常情况下,所设计的协议的健壮性与多方的信任程度有关,即一方与另一方的分享程度有密切的关系。因为协议通常是根据各种不同程度的攻击行为设计的。这里我们主要提出两种攻击模型:
●半诚实环境
所有单元均遵从协议进行操作,单元间互通信息(中间过程数据及自身的原始数据)以试图分析出其他单元持有的原始数据。
●恶意环境
存在恶意单元,可违反协议规则,企图破坏操作流程或从中获取正常节点的数据信息。
半诚实环境又称为半可信环境(Semi-Honest),是分布式计算中讨论较多的一个假设环境,半诚实环境中可能存在多个共谋节点,共享过程数据信息,以寻求发现其他节点的原始数据,该类攻击也被称为collusionattack,即共谋攻击。所有环境中,恶意环境(Malicious)对计算模型的安全隐私要求最高,除了要抵御上述环境中可能存在的攻击威胁外,还要求计算模型同时具备对数据/协议篡改、数据窃听、重放攻击等各类恶意攻击的抵抗力。
5. 总结
本文,我对分布式隐私保护、分布式隐私保护数据挖掘内容做了具体的介绍。并根据具体事例分别对数据垂直划分和水平划分两种情况所采用的具体算法做了分类介绍,这对研究者进一步的研究很重要的意义,只有在充分了解前人已做工作的基础上多做总结,才能在这个领域提出更有效的方法。
【关键词】:隐私保护数据挖掘;分布式;水平划分;垂直划分
1.分布式隐私保护
分布式隐私保护:当应用环境复杂化,存在两个或两个以上的原始数据提供方的数量时,称为分布式数据分布环境。带有独立挖掘方的两方分布式环境如图 1 (b)所示,原始数据提供方 A 和原始数据提供方 B 为部分原始数据的持有者,双方提交数据至挖掘方完成整体数据的挖掘工作。分布式环境下亦可由多个数据提供方之间自行协同承担挖掘工作,即环境中可以不存在独立的数据挖掘方,如图 1 (c),原始数据提供方 A和原始数据提供方 B 通过可信第三方(非必须),约定通信和计算协议后,双方交互完成挖掘工作。分布式数据挖掘环境中又以数据记录的不同分布状态,分为水平分布和垂直分布。若数据记录的各记录条目分布于不同节点时,称为水平分布;反之,若数据记录的各属性分布于不同节点时,则称为垂直分布。可以看出,数据分布特征仅针对环境中原始数据的分布特性,与其他单元的分布情况无关,如可信第三方或挖掘方的分布情况。另外,在一些分布式环境中,还定义了全分布式环境 Fully-DistributedEnvironment,主要指节点数量
远大于每个节点持有数据记录的数量。
图1 数据分布类型
不同的数据分布特征需要采用相适应的隐私保护方法,其中,在集中式环境下,主要基于数据扰乱技术实现数据挖掘的隐私保护方法,分布式环境中,考虑到多方参与时安全问题的复杂性,以及参与方相互之间的不信任性,以加密机制为主要隐私保护手段,实现高安全度的隐私保护方法。
在分布环境下,数据分布有两种情况:数据垂直分布和数据水平分布
●数据的垂直分布
是指数据按照属性值的不同分布在不同的站点,每个站点共享标签属性,并且拥有自己的部分属性。在进行数据挖掘时,每个站点只知道对方站点的属性名称,而对方站点的属性值却并不知道。例如某地银行希望和电信公司共同进行数据挖掘,他们各自的数据库中拥有相同的人的不同数据。银行拥有客户A的工资!存款!贷款情况等等,而电信公司拥有客户A的通信消费记录。工作单位等数据"这样的数据分布即为数据垂直分布"。
●数据的水平分布
是指数据按照记录的不同而分布于不同的站点,每个站点拥有不同的记录,而每条记录拥有相同的属性名称"例如某地农业银行和建设银行拥有一群不同用户的相同属性和类的数据,如工资!存款!贷款情况等等,他们希望共同进行数据挖掘,这样的数据分布情况即为数据水平分布"。分布式数据的隐私保护挖掘算法,根据数据分布情况的不同,采取的策略也不相同,下面我们会对垂直分布和水平分布的数据所采用的方法进行分类介绍。
2. 分布式隐私保护数据挖掘
在大部分情况下,分布式环境下的隱私保护的目标是:在不牺牲多方的数据隐私性的前提下,允许数据挖掘者在全部的数据上进行聚类统计,并产生有价值的统计结果供自己再企业发展中产生有益的决策。因此,参与方会希望多方相互合作去产生有利的统计分析结果,但是很多情况下又不敢完全相信对方。因此,数据集被水平分割或者垂直分割到多个云端。在水平分割的数据集合总,实体的数据记录被分在多个实体方存储。在垂直分割中,实体的每条记录通常含有多个相同的属性,一个数据集被按照属性分在多个云端节点。这两种分割方法都给分布式隐私保护数据挖掘带来了新的挑战。
分布式隐私保护数据挖掘问题与密码学有很大的关系:多方参与者之间的安全计算。密码学的常见方法是通过多个参与者提供不同的输入,参与者不了解别人的输入,通过一个共同的函数来产生最后的聚类结果。例如:在两个参与者的情况下,Alice和Bob分布输入x和y,这时两个人都要去计算公式f(x,y),但双方都不希望自己的输入泄露给对方。这种情况,可以扩展到k个参与者,每个参与者有一个输入参数,最后需要计算h(x1,…xk),同样参与者不希望其他的人知道自己的输入。基于这种情况,产生了很多的数据挖掘算法如:标量积协议运算(ScalarProduct)、安全求并集运算(SecureSetUnion)、安全求交集大小运算(SecureSizeofSetIntersection)安全求和运算(SecureSum)。要计算相关的公式,必须设计出相关的协议使得多放的输入参数集合起来但并不损害多方的隐私。通常情况下,所设计的协议的健壮性与多方的信任程度有关,即一方与另一方的分享程度有密切的关系。因为协议通常是根据各种不同程度的攻击行为设计的。这里我们主要提出两种攻击模型:
●半诚实环境
所有单元均遵从协议进行操作,单元间互通信息(中间过程数据及自身的原始数据)以试图分析出其他单元持有的原始数据。
●恶意环境
存在恶意单元,可违反协议规则,企图破坏操作流程或从中获取正常节点的数据信息。
半诚实环境又称为半可信环境(Semi-Honest),是分布式计算中讨论较多的一个假设环境,半诚实环境中可能存在多个共谋节点,共享过程数据信息,以寻求发现其他节点的原始数据,该类攻击也被称为collusionattack,即共谋攻击。所有环境中,恶意环境(Malicious)对计算模型的安全隐私要求最高,除了要抵御上述环境中可能存在的攻击威胁外,还要求计算模型同时具备对数据/协议篡改、数据窃听、重放攻击等各类恶意攻击的抵抗力。
5. 总结
本文,我对分布式隐私保护、分布式隐私保护数据挖掘内容做了具体的介绍。并根据具体事例分别对数据垂直划分和水平划分两种情况所采用的具体算法做了分类介绍,这对研究者进一步的研究很重要的意义,只有在充分了解前人已做工作的基础上多做总结,才能在这个领域提出更有效的方法。