论文部分内容阅读
近些年,数据挖掘技术已经被广泛使用到包括金融、医学等的各个领域。虽然利用数据挖掘技术得到的规律和模式对我们后来的工作起到了有效的指导作用,但是,也给我们的生活带来了其他的问题,这当中被人们广泛关注的就是隐私的泄露。就数据挖掘技术而言,隐私包括两个方面的内容,一个是挖掘技术作用的原始数据;另一个则是从原始数据中挖掘出来的有价值的规律。目前,保护隐私的数据挖掘主要从两个方向进行研究,数据变换和密码学方法。第一种是改变原始数据,通过添加噪音或者随机改变数据来隐藏原始数据,该方法主要用于集中分布的数据;第二种是对原始数据及中间计算结果进行加密,主要用于分布式数据挖掘。本文提出了一种决策树改进算法,该算法利用原始数据构造属性间单步转移概率矩阵,并且在单步转移概率矩阵的基础上,根据构造决策树过程中需要的属性自行计算属性间联合概率,使得决策树构造算法在计算信息熵的时候不用从原始数据中统计获得概率。并且该算法改进了决策树创建叶节点的条件,从而决策树不会用尽所有的候选属性才停止构造,这就消除了没有原始数据造成的影响。由于属性问联合概率矩阵是通过单步转移概率矩阵计算得到的,因此其结果会与从原始数据中得到的结果有差异,而且终止条件的改进也会影响决策树的准确性,但是实验证明,由此差异造成的最终决策树同样会有较高的分类精度,能够达到应用的要求。这样既可以有效的保护原始数据,又没有降低决策树的分类精度。