论文部分内容阅读
近年来,数据挖掘技术已经被广泛应用到金融、医学等领域。现在很多的信息都可以从网上以电子的形式得到,而且有越来越多的数据挖掘工具被开发出来,因此数据挖掘已经对隐私和数据安全造成一定的威胁。随着人们隐私保护意识的加强和相关法律法规的健全,数据挖掘中的隐私保护问题日益突出。研究保护隐私的方法,防止数据被误用,提出更多保护隐私和数据安全的解决方案已经成为数据挖掘中的一个研究重点。论文在对隐私保护分类挖掘进行分析的基础上,提出了使用贝叶斯网络对同构分布式数据库进行分类挖掘,并使用隐私保护策略对分布式数据库进行隐私保护。论文主要包含以下几方面内容。论文第一章介绍了数据挖掘隐私保护研究背景和目的意义,数据挖掘在石油行业的应用现状与应用前景,量子进化算法的研究现状以及论文的主要技术路线和研究内容。论文第二章介绍了数据挖掘隐私保护的主要算法。隐私保护的数据挖掘算法中隐私保护的主要方法有披露控制的统计方法,随机化方法和加密技术等。论文第三章提出基于改进量子遗传算法的贝叶斯网络结构学习算法。在分布式数据库系统中各个数据节点使用该遗传算进行贝叶斯网络结构学习,得到局部贝叶斯网络结构。各个节点在求得局部贝叶斯网络后,对该结构使用安全边统计和安全和的方式进行隐私保护处理,并将处理后的数据传送给可靠的第三方进行全局贝叶斯网络学习,求得全局贝叶斯网络结构。本章从理论和试验两方面证明该算法是可行的。论文第四章提出了基于改进量子蚁群算法的贝叶斯网络结构学习算法。在分布式数据库系统中,各个数据节点利用改进量子蚁群算法求贝叶斯网络。在求得局部贝叶斯网络后,利用安全和的方法对该结构进行隐私保护操作。然后进行全局学习。在全局学习过程中,利用各属性间的互信息来学习全局贝叶斯网络结构。该算法从理论和实验两方面来看都是可行的。论文第五章利用改进粒子群算法求解贝叶斯网络,并使用该算法对分布式数据库各个站点上的数据求解其贝叶斯网络结构,并在此基础上求全局贝叶斯网络结构。为了保护各个数据节点的数据隐私,在利用局部结果进行全局贝叶斯网络学习之前利用rijndael算法对局部结果进行加密。论文第六章针对水平分布的分布式数据库系统分类数据挖掘,提出了基于SVM的隐私保护分类算法。该算法在第三方不参加联合攻击的情况下能够保护各节点的数据不会被泄露,在第三方参加协同攻击的情况下,在数据片数量较大的情况下数据被泄露的概率也非常小。实验数据表明该算法在分布式节点增加的情况下具有一定的稳定性。论文最后对整篇文章进行了总结,说明了论文的主要成果和存在的不足之处,并提出了有待于进一步改进的地方和未来的研究方向。