论文部分内容阅读
随着国际互联网的发展和大规模存储的普遍应用,数据挖掘作为对数据进行分析理解应用的科学,越来越受到重视.数据分类是数据挖掘的一个重要研究领域.近年来数据分类的理论研究和实际应用都获得了长足的进步,陆续出现了许多实用的分类模型和实现算法.在分类研究领域,组合分类器的优化方法逐渐变得引人注目.组合分类器的代表算法有Bagging,AdaBoost和Arcing.三者算法新颖,绩效突出,引起研究者的广泛重视.对它们进行分析和比较对实际应用的推广具有重要意义.该文在分类错误率、合并规模和算法相关度等方面对三个算法进行综合对比,获得了许多对实际应用具有指导意义的结果.Bagging算法分类样本形式简单,对底层分类模型没有特殊要求,适用范围广,其单个分类器的产生是独立的,易于并行处理.其循环步长优化设置为15左右.AdaBoost和Arcing属于Booting算法,单个分类器的产生有顺序依赖关系.由于采用了适应性权重,两者的优化效果好于Bagging.AdaBoost算法形式复杂,理论基础深厚.Arcing方法权重更新模式简洁清晰.与AdaBoost相比,两者分类准确度接近,而AdaBoost更适用于大规模数据庥,Arcing则在相对较小的数据集上表现出色.两者的迭代步长优化设置为25左右.除此分析比较以外,该文提出一种基于适应性权重和限制目标类权重扩张的AdaBoost改进算法.它通过避免在目标类别上发生权重扭曲,有效地解决了在个别数据集上发生的退化问题.针对目标类的权重限制设置,该文提出了两种参考设置方式.平等对待方式适用于中小规模的数据集,而目标类样本数比例限制则对大规模数据集有一定的优势.叠加方法和遗传算法是另外两种分类器的优化方法,它们不属于一般的组合优化的范畴,但因其特点突出,该文在其实现和应用方面也进行了讨论了,提出一些有价值的建议.