论文部分内容阅读
随着现代社会对个人隐私问题逐渐关注,保持隐私的数据挖掘技术已成为一个十分重要的研究课题。保持隐私的数据挖掘是一个矛盾体,一方面它要从大量的数据中挖掘出有用的信息和模式,另一方面,它需要对参加挖掘的各方隐私数据予以保护,避免其被泄露。当前,保持隐私的数据挖掘主要采用两种方法,一是采用数据干扰方法,一是利用多方安全计算技术。根据数据挖掘中隐私的概念,明确保持隐私的数据挖掘的目标,并在结合数据分布方式、隐私保护技术、挖掘任务、数据挖掘算法中常用的安全计算工具等多个方面的基础上,对现有的保持隐私的数据挖掘做了较全面的综述。在探讨了保持隐私的数据挖掘的一般原理和典型技术之后,侧重对多方安全和计算协议做了详细的探讨。其中,主要分析了基于健忘传送协议的多方安全和计算协议和同态密钥体系的多方安全和计算协议。这些多方安全和计算协议在完全克服串谋的安全性上和算法效率上均存在问题。因此,在平衡安全性和效率矛盾的基础上,给出了一个改进的多方安全和计算协议,可解决串谋的安全问题,而且在分布式的情况下算法效率可取。异常检测用于发现数据集合中显著不同于其它数据的对象,是一种十分重要的数据挖掘技术。在分布式的异常检测中,各个站点之间一方面希望能通过数据挖掘来获得全局异常点集合,另一方面又都不原意泄露各自隐私数据。当前已有的保持隐私的异常检测算法,都存在因部分站点之间串谋导致隐私数据泄露的问题。在基于多方安全和计算协议上,给出了一种基于隐私保持的异常检测算法。该算法能在垂直划分的分布式数据库中,隐私保持地挖掘出基于距离的全局异常点,且有效的克服了已有算法抗串谋能力较弱的问题。