论文部分内容阅读
随着互联网和存储技术的快速发展,网络用户数和应用规模迅速扩大,数据存储量呈现爆炸式的增长。在海量数据面前,也要求能够快速的进行管理和计算,提高响应速度。传统的单一服务器的存储模式,已无法满足大数据量存储和计算对性能和可靠性的要求。分布式存储和并行计算很好的解决了上述难题,不但能优化数据存储带来的性能和容量开销,还解决了数据不断增长的扩展性问题,具有良好的可拓展性。伴随着云计算时代的到来,Hadoop分布式计算平台,以其庞大的存储和计算能力,简便的计算模式,便捷的服务形式,得到了极其广泛的应用。越来越多的研究开始致力于向云计算的分布式环境中扩展,如数据挖掘、数据分析等涉及海量数据计算的领域,均开始致力于分布式环境中的算法研究。但是,由于云计算环境开放的平台和共享的模式,用户和资源高度集中,也面临着很多安全性和隐私保护方面的挑战。尤其是对隐私问题的关注度不断提升,众多研究者也开始致力于隐私保护的研究中。例如,分布式环境中常常出现多部门数据库之间联合挖掘的现象。由于数据通常记载了各部门核心技术和隐私信息,如何在联合挖掘的过程中不泄露用户数据的隐私,就是一个现实需要解决的问题。而分布式外包数据库服务中,由于用户权限分散,为了保护用户数据的安全,一种很自然的方式就是进行权限控制。如何在外包数据库可以进行权限控制的同时,而不泄露用户权限的具体信息,也是一个需要研究的热点。因此,基于上述分析,定位出本文的研究重点,即分布式环境中信息挖掘与隐私保护相关技术研究。本文的主要内容包括:(1)分布式环境中的数据挖掘算法的研究。Web日志挖掘,主要针对互联网日志信息进行分析,获取页面关联、用户分类、热点聚类、访问序列等信息,改善用户体验。但是,随着互联网的发展,各网站每天记录着数以亿计的交易、访问的日志信息,对Web日志的分析和挖掘,急需向分布式环境中迁移。本文主要针对Web访问日志的频繁序列的挖掘任务,以PrefixSpan序列模式挖掘算法为基础,提出一种在水平分布环境中,基于滑动窗口模型的快速、高效的连续序列模式挖掘算法,并在Hadoop平台上对该算法进行了实现。实验表明,滑动窗口模型,在得到完全的频繁序列的同时,极大的缩减了冗余频繁序列的规模,满足了大数据量的挖掘需求。(2)分布式环境中保护隐私数据挖掘算法的研究。随着各商业主体之间的合作日益频繁,在多个商业主体联合数据库上进行挖掘的任务变得越来越普遍。而基于隐私的考虑,数据拥有者不希望公布自已的数据信息,只想获得联合挖掘的结果。基于安全多方计算的保护隐私的数据挖掘很好的解决了上述难题。因此,本文针对分布式数据库,采用安全多方计算的基础协议作为处理模块,主要研究了保护隐私的水平分布序列模式挖掘算法和保护隐私的垂直分布关联挖掘算法。针对水平分布序列模式挖掘算法,本文提出新的基于ElGamal门限密码体制和同态加密体制的安全多方矩阵求和协议;针对垂直分布的关联规则算法,本文提出一种新的基于Mix-Match的安全两方点积协议。通过这些基本协议的应用,很好的解决了数据挖掘过程中的隐私保护问题。理论分析表明,在无可信第三方参与的情况下,上述协议能够很好的隐藏数据信息,保护私有信息。文中还对基于安全多方计算的保护隐私数据挖掘问题的设计思路进行了整理和归纳,采用模块化的设计思想,具有灵活、操作简便的优点。(3)外包数据库访问控制的隐私保护的研究。外包数据库服务是云计算中一种常见的服务模式。随着用户对数据安全的关注增多,数据拥有者希望采用安全的方式将数据进行代理服务器的委托存储,并通过权限控制实现对用户的访问管理。但是,随着用户对隐私的考虑,用户希望保护服务器的访问权限信息,避免数据的访问控制策略的泄露。因此,本文提出一种外包数据库服务中访问控制的隐私保护协议。首先采用秘密共享方案对数据进行分片存储,保障数据安全;采用ElGamal加密体制对外包数据库的权限进行加密存储,保障了授权信息的安全;基于ElGamal同态特性的将代理服务器的权限控制和用户查询相结合,在保护访问权限隐私的情况下,用户能够安全的获得查询结果。理论分析表明,在无可信第三方参与的情况下,能够很好的隐藏访问权限数据,保护数据拥有者和查询者的私有信息。