论文部分内容阅读
随着信息技术,特别是网络技术、数据存储技术和高性能处理器技术的飞速发展,海量数据的收集、管理和分析变得越来越方便,知识发现和数据挖掘更是在一些深层次的应用中发挥了积极的作用。任何事情都有其两面性,数据挖掘领域也不例外,随之产生的是信息安全和保护隐私的问题。所以,如何在保证信息隐私的情况下挖掘出有用信息已经成为目前数据挖掘界的一个研究热点。本文首先从数据分布方式、数据修改方式等角度,对当前流行的保护隐私数据挖掘算法进行了深入浅出的介绍和分析。重点介绍了MASK、RRPH、PARD三种保护隐私的关联规则挖掘方法。通过分析它们的缺点和不足,提出一种新颖的保护隐私关联规则挖掘方法——基于转移概率矩阵的部分随机化回答(partial randomized response based on probability matrix,简称PRRPM)方法。为了在保护隐私的同时能够准确、高效地进行关联规则挖掘,PRRPM方法在进行频繁1-项集和频繁k-项集(k>1)挖掘时分别采用不同的数据转换策略。在挖掘频繁1-项集时,先使用“属性转移概率矩阵”对每个属性进行部分转换,然后提出一种方法恢复1-项集在原数据集中的支持度,以便找出数据集中的所有频繁1-项集;而在挖掘频繁k-项集(k>1)时,要先使用“多项集转移概率矩阵”对所有的候选频繁k-项集进行部分转换,然后提出一种方法恢复候选频繁k-项集在原数据集中的支持度,以便找出所有的频繁k-项集。理论分析和实验验证表明,本文提出的PRRPM方法比RRPH和MASK方法在隐私性、准确性、复杂度方面更具有优势。