保护隐私的关联规则挖掘研究

被引量 : 0次 | 上传用户:lelouchX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术,特别是网络技术、数据存储技术和高性能处理器技术的飞速发展,海量数据的收集、管理和分析变得越来越方便,知识发现和数据挖掘更是在一些深层次的应用中发挥了积极的作用。任何事情都有其两面性,数据挖掘领域也不例外,随之产生的是信息安全和保护隐私的问题。所以,如何在保证信息隐私的情况下挖掘出有用信息已经成为目前数据挖掘界的一个研究热点。本文首先从数据分布方式、数据修改方式等角度,对当前流行的保护隐私数据挖掘算法进行了深入浅出的介绍和分析。重点介绍了MASK、RRPH、PARD三种保护隐私的关联规则挖掘方法。通过分析它们的缺点和不足,提出一种新颖的保护隐私关联规则挖掘方法——基于转移概率矩阵的部分随机化回答(partial randomized response based on probability matrix,简称PRRPM)方法。为了在保护隐私的同时能够准确、高效地进行关联规则挖掘,PRRPM方法在进行频繁1-项集和频繁k-项集(k>1)挖掘时分别采用不同的数据转换策略。在挖掘频繁1-项集时,先使用“属性转移概率矩阵”对每个属性进行部分转换,然后提出一种方法恢复1-项集在原数据集中的支持度,以便找出数据集中的所有频繁1-项集;而在挖掘频繁k-项集(k>1)时,要先使用“多项集转移概率矩阵”对所有的候选频繁k-项集进行部分转换,然后提出一种方法恢复候选频繁k-项集在原数据集中的支持度,以便找出所有的频繁k-项集。理论分析和实验验证表明,本文提出的PRRPM方法比RRPH和MASK方法在隐私性、准确性、复杂度方面更具有优势。
其他文献
2013年,我国天然气储量继续保持快速增长,新增探明地质储量连续三年超过6000亿立方米,达到6164.33亿立方米;天然气产量稳步增长,全年天然气产量达1188亿立方米,同比增长约10%
<正> 随着社会的发展,人们的平均寿命不断增加,越来越多的人患老年性疾病如阿尔茨海默病(AD)。AD已成为继心血管疾病、癌症和中风之后的第四大“杀手”。目前全世界有1700~250
旅游气候舒适度对旅游者出行以及旅游地开展旅游活动都有着重要的影响.本文采用山西省气象站50年气象站的资料,对反映气候舒适度的两个指数温湿指数和风寒指数进行计算,并利
根据考古等文化材料提供的时间可以判断出纵向传递的分化或横向传递的接触发生的历史阶段。本文主要通过白语各方言的比较以及原始白语和汉语、彝语比较提供的材料来看白语的
慢性盆腔疼痛是指时间持续6月以上,无周期性、非镇痛药物能缓解的盆腔疼痛。其发生率为0.1%,占妇科门诊患者的10%,占子宫切除手术的10%~12%。在美国每年因慢性盆腔疼痛而进行子宫切除的患者高达
本文系统地论述了工业设计中产品造型设计所具有的特征。双重性、时代性、民族性、协调性、独创性、经济性和模糊性,为企业开发新产品提供了科学的依据。
随着科学技术的飞速发展和全球化大市场的日趋成熟,传统的大规模生产模式受到巨大的冲击。稳定、统一的市场逐渐向多变、多元化的市场转变,出现众多的细分市场及客户的定制化
我国《著作权法》第4条第1款规定:“依法禁止出版、传播的作品,不受本法保护。”那么所谓的“依法”是依据哪个法律呢?笔者认为所说的“依法”并不是指依据著作权法,因为,“依著作权
中成药是治疗慢性肾衰竭(CRF)的常用方法之一,但在临床工作中存在诸多不合理使用的情况。笔者探讨了CRF患者不合理使用中成药的原因和类型:辨证依据不足、药不对证,不符合中