论文部分内容阅读
当今社会,随着科技水平的不断提升,信息技术和数据库技术也得到了飞速发展,许多企业或组织都囤积了大量的数据,如何从这些海量数据中获得有用的信息,已经引起了广泛的重视。数据挖掘的最终目标就是从海量数据中挖掘出隐藏的、有价值的信息和相关知识。数据挖掘在商业决策、市场分析等领域的作用已经越来越明显和重要。数据挖掘虽然能给相关企业或组织带来丰厚的回报,但是其本身对软件和硬件环境要求很高,对于那些资源相对缺乏的企业或组织来说,将这项工作外包给专业的服务机构,是一个不错的选择。然而,这样必然会涉及到信息及隐私的安全问题。因此,原始数据在外包给专业机构进行挖掘分析前,需要对其进行变化处理,这样才能对隐私进行较好的保护。本文主要研究外包关联规则挖掘中的隐私保护问题,相关工作有:①学习探讨了一般关联规则挖掘隐私保护技术,对几个典型的方法进行了总结,分析了其优点和不足。②对外包环境下的关联规则挖掘隐私保护技术进行了研究,分析了其基本要求及与非外包环境下的隐私保护方法的不同之处,给出了外包关联规则挖掘隐私保护算法的基本流程。③对现有的几种外包关联规则挖掘隐私保护方法进行了深入学习,分析了其优点和不足。对基于布隆过滤器的外包关联规则挖掘隐私保护算法提出了两种改进。改进方法一,采用了独立映射空间的布隆过滤器和可逆的地址映射函数,将原始事务数据库变换成布隆过滤器的形式,然后按照转换过后的每个事务记录的布隆向量的汉明重量进行事务压缩,并利用矩阵列向量进行“与”运算,计算候选频繁项集的支持度,从而得出频繁项集。实验结果证明,该改进方法具有良好的可逆性,并使时间效率大幅提高。改进方法二,同样采用独立映射空间的布隆过滤器,还是采用原算法中的hash不可逆地址映射函数,同时对还原所需的映射表进行了重新编排。该方法大大缩小了算法的存储空间,减小了开销。④分别采用模拟数据集和真实数据集对两种改进方法进行验证。通过实验结果得出,两种改进方法均能达到很好的效果,更能有效应用于实际。