论文部分内容阅读
国际权威T.G. Dietterich将集成学习列为机器学习四大研究方向之首。泛化能力是评价机器学习算法好坏的重要指标。集成学习通过某种策略组合分类算法,能够有效地提高算法的泛化能力。创建泛化能力强、差异大的基分类器是集成学习算法成功的关键。小波变换作为一种有效的特征提取方法,因其在时域和频域都具有良好的局部特性,近年来受到学者们的密切关注。设计出具有高泛化能力的集成学习算法,一直是集成学习研究的热点问题之一。论文在分析和学习经典集成算法的基础上,提出一种基于小波变换特征提取的集成学习算法,即Wavelet-Forests算法。该算法的主要思想是通过构造具有差异性的基分类器,提高集成学习算法的泛化能力。在构造基分类器时,Wavelet-Forests算法采用处理训练数据集和处理输入特征相结合的方法,将特征集随机划分为多个特征子集,根据每个划分的特征子集,选择一个非空类子集对应的数据子集,再对这些数据子集采用自助法生成新的数据子集。在新的数据子集上实施小波变换,得到每个数据子集对应的小波系数矩阵。整合小波系数矩阵,得到基分类器的训练数据集。在集成基分类器时,采用平均法计算每个类的权,返回具有最大权的类。为了验证Wavelet-Forests算法的可行性和有效性,论文使用数据挖掘领域公认的WEKA平台实现该算法。采用UCI数据库提供的标准数据集,将Wavelet-Forests算法与单个分类器J48,以及Bagging、AdaBoost和Random Forest等经典集成算法的性能进行比较,使用准确率和ROC曲线分析实验结果。实验结果表明,Wavelet-Forests集成学习算法具有较高的准确率,可以用来处理不平衡类问题。