论文部分内容阅读
分类问题是数据挖掘、机器学习等领域中一个重要的研究课题。随着分类方法应用的深入扩展和数据的爆炸式增长,对高维数据和大规模数据进行分析和研究也越来越普遍和重要,而且处理的数据是高维的同时往往还是大规模的。在面对高维数据的处理时,随着维数的增高和数据集的增大,任务的计算量就越来越大而且是成指数式增长,执行的效率就越来越低,另外高维数据常存在着“维数灾难”等问题。在实际应用中,将高维数据进行降维同时对相应算法模型实现并行化是提高高维数据和大规模数据处理性能的有效方法。投影寻踪就是一种用来处理和分析高维观测数据,尤其是非正态、非线性高维数据的新兴统计方法。因为它对没有数据分布作正态假设,这样更能保持数据的原始特性,所以它在高维数据分析中被广泛应用。投影寻踪模型的过程中存在着一个投影指标的优化过程。在寻优问题上,已经有很多的专家和学者提出了许多不同的方法,如粒子群算法,遗传算法,蚁群算法等。MapReduce并行计算模型是由Google提出的针对大规模数据处理的一种计算模型。它对并行计算中的细节问题,数据的分割、任务的分配、并行处理过程及容错处理等在底层进行了封装,大大的简化了并行程序的设计。用户在使用MapReduce进行并行开发时,只需将精力放在并行计算任务的解决上。本文在文本分类应用问题中通过投影寻踪模型将文本进行降维,把文本投影到一维后进行分析,其中投影方向的优化采用粒子群优化算法来实现;利用MapReduce模式设计与实现了粒子群投影寻踪算法的并行化,以提算法的效率;在分类阶段使用了基于MapReduce的KNN分类算法并行。在复旦数据集进行的实验结果表明,基于MapReduce实现的粒子群投影寻踪模型能够有效地寻找到较好的投影方向,确保分类效果;并且与其串行算法相比,在实现效率上有较大的提高。