论文部分内容阅读
由于信息技术的不断发展,数据呈现爆发式的增长,促使数据挖掘技术得到飞速的发展。然而,伴随着数据挖掘技术的应用,数据中的隐私问题也接踵而至。随着人们对隐私的重视度越来越高,隐私保护技术也逐渐成为人们研究的热点。隐私保护数据挖掘技术就是在数据挖掘中对敏感数据保护的应用方法。该技术的主要目的是在保证数据挖掘结果准确率的同时,提高对敏感数据、知识的隐私保护,这目前也是人们在隐私保护方面研究的主要方向。本文主要针对关联规则挖掘中的隐私保护算法进行研究,文中介绍了关联规则挖掘和隐私保护的相关概念和技术,并分析目前已有的两种基于关联规则的隐私保护算法,针对其中时间效率和规则丢失率的不足进行改进:(1)本文对基于部分隐藏的随机化回答(RRPH)方法进行详细分析。针对该方法在支持度重构时效率的不足,文中采用分治策略对支持度重构时的转换矩阵求解进行优化,同时运用集合运算方法对歪曲数据集中支持度的计数方式进行优化。最后通过实验与分析,验证了改进后算法的有效性。(2)本文对隐私保护关联规则挖掘(PPARM)算法进行分析,发现该隐私保护方法在对敏感规则隐藏的同时,规则的丢失率也相对较高。针对这一问题,文中提出了一种基于启发式的隐私保护算法(HPP),该算法主要对选择数据集中事务的牺牲项方法进行改进,在隐藏敏感规则的同时,保证对非敏感规则影响最小。最后通过实验证明HPP算法降低了规则的丢失率,表明该算法是有效的。