论文部分内容阅读
数据挖掘是一种从海量数据中发现有用信息的技术,目前已被广泛应用于金融、电信、网络、气象等诸多领域。分类作为数据挖掘的重要组成部分,引起了众多学者的广泛关注,并取得了一系列杰出的成果。但近年来由于数据流应用的日益广泛,其快速到达、迅速变化、海量、潜在无限的特点,使得原来针对静态数据库的分类算法越来越不能适应数据流的现实。大量的研究工作表明,分类器系综通过训练多个分类器系综表决,从根本上增强分类算法的抗噪和抗概念漂移能力,大大提升分类精度。但由于数据流处理的特殊性,导致传统系综算法在效率和计算开销上制约了分类器的性能。针对这一问题,本文分别从串行优化和并行优化两方面分别提出按需系综的数据流分类算法以及基于云计算的数据流系综分类算法。按需系综数据流分类算法针对传统分类器系综数据流分类算法高内存消耗和计算开销的问题,按需动态调整分类器的个数和权值,从而达到既保持较高分类精度,又降低开销的目的。通过对两种人工数据流的实验分析,算法对隐含概念漂移的数据流的分类效率和精度都有一定的提升,同时内存开销也有较大幅度的降低。云计算为海量数据的分析和贮存提供了经济、快速的解决方案,对于海量数据挖掘中最具挑战的领域—云计算数据流挖掘算法的研究,具有极高的理论参考价值和广阔的实际应用前景。通过综合分析数据流分类算法以及云计算的基本理论,提出了基于Hadoop框架的数据流系综分类算法,算法采用MapReduce并行编程模型对传统基于动态权重系综模型进行改进,以提升算法的分类效率。实验结果表明,该算法在处理快速海量到达的数据流时,其执行效率远高于传统系综算法。综上所述,本文针对数据流的特殊情况设计的优化系综算法,在保持系综分类高精度的同时提升了算法的分类效率,降低了计算开销,使得算法更具实用价值。