论文部分内容阅读
                            
                            
                                数据挖掘被广泛应用于多个领域,尤其是在如银行、电信、保险、交通、零售等商业领域。但数据挖掘也会带来一些社会问题,其中最敏感的要属隐私保护问题。因此,有必要研究如何在数据挖掘中保护信息隐私,并且建立基于隐私保护的挖掘模型,以保证在挖掘过程中敏感信息的安全。
    本文主要探讨基于隐私保护的决策树分类模型的构造问题,其中决策树的生成算法采用ID3算法。该问题具体定义为:有两个不同站点,站点A和站点B,欲基于数据集共同构造决策树;站点A和站点B各自拥有数据集的一部分;在构造决策树的同时,必须保证站点A和站点B均不会泄露自己数据的具体字段信息。
    根据不同的分布情况,数据集可分为:集中式数据集、水平分布数据集和垂直分布数据集。本文对上述三种数据集的保护隐私的决策树构造方法进行了描述与分析,并分别讨论了随机化方法和安全多方计算方法在保护隐私的决策树生成算法中的应用。
    对于集中式数据集,应用随机化方法实现建树过程中的隐私保护。首先,采用服从均匀分布或高斯分布的随机变量对原始数据进行变换。其次,应用一种基于贝叶斯理论的重构方法对数据进行重构。最后,在重构的数据上构造决策树。对于数据集水平分布和垂直分布的情况,应用安全多方计算协议实现建树过程中的隐私保护,即参与计算的各站点分别输入保密信息,运用安全计算协议得到随机分享值。
    针对垂直分布的数据集,本文提出了一种保护隐私的决策树构造方法PVID3算法。该方法与前面提到的基于垂直分布数据的保护隐私的决策树构造方法的不同之处如下:
    ①前者应用的安全协议为标量积协议;PVID3应用的安全协议为安全计算交集协议。
    ②前者需要引入第三方服务器,且假设第三方服务器为半诚信;PVID3无需第三方服务器的参与。
    ③前者要求两方站点的数据集均包含类标号属性;PVID3只要求一方站点包含类标号属性信息。
    本文给出了基于PVID3算法的决策树分类模型的实现过程,并且对算法的传输开销和计算复杂度进行了分析。