论文部分内容阅读
数据挖掘概念的第一次出现是在1995年的知识发现会议上,由Fayyad提出的。他认为数据挖掘是一个知识发现的过程,是一个自动或者半自动化的从大量的数据中发现有意义的,对我们潜在有用的数据模式的过程。数据挖掘研究起初的障碍是数据的收集比较困难,对少量数据处理容易导致模型的过度拟合。后来由于越来越多的人意识到数据挖掘的重要性,各行各业开始逐渐投入大量的资源来建立和维护自己的信息化系统以用来收集可利用的数据。但是数据量的丰富,在给我们提供大量数据的同时也带来了一些麻烦。首先虽然数据量很大但不一定全是有用的信息,从这些数据中找出我们需要的数据是一个重要的问题,其次数据量过大时对数据的存储也是一个重大的挑战。数据挖掘中使用的方法主要是有以下几类,关于监督和预测的模型:神经网络、决策树算法、回归等;无监督模型:聚类分析(快速聚类及二阶聚类)和关联分析(多维关联及时序关联);针对大数据现象出现的数据降维类方法:主成分分析、因子分析等。根据想要得到的结果,可以选择不同的分析方法。本文主要介绍决策树方法中的ID3算法和C4.5算法,并且分析了它们各自的优缺点。本文的创新点是在ID3算法理论的基础上提出了修正的信息增益函数。修正的算法可以在一定程度上避免原算法中易偏向于选择属性取值数目较多的属性作为样本的划分属性。将ID3算法和改进的算法的预测能力进行比较,实验表明改进的算法具有更高的预测精度。本文中还分析了数据流挖掘中基于Hoeffding不等式的VFDT算法,针对连续属性处理的NIPDT算法,基于排序二叉树思想的VFDTb算法,以及融合了贝叶斯分类思想的VFDTc算法。对VFDT算法和VFDTc算法在数据的处理速度方面对了比较,实验表明VFDTc算法具有更好的处理速度。