用于文本分类的粒子群投影寻踪模型的并行化研究与实现

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:a479676614
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是数据挖掘、机器学习等领域中一个重要的研究课题。随着分类方法应用的深入扩展和数据的爆炸式增长,对高维数据和大规模数据进行分析和研究也越来越普遍和重要,而且处理的数据是高维的同时往往还是大规模的。在面对高维数据的处理时,随着维数的增高和数据集的增大,任务的计算量就越来越大而且是成指数式增长,执行的效率就越来越低,另外高维数据常存在着“维数灾难”等问题。在实际应用中,将高维数据进行降维同时对相应算法模型实现并行化是提高高维数据和大规模数据处理性能的有效方法。投影寻踪就是一种用来处理和分析高维观测数据,尤其是非正态、非线性高维数据的新兴统计方法。因为它对没有数据分布作正态假设,这样更能保持数据的原始特性,所以它在高维数据分析中被广泛应用。投影寻踪模型的过程中存在着一个投影指标的优化过程。在寻优问题上,已经有很多的专家和学者提出了许多不同的方法,如粒子群算法,遗传算法,蚁群算法等。MapReduce并行计算模型是由Google提出的针对大规模数据处理的一种计算模型。它对并行计算中的细节问题,数据的分割、任务的分配、并行处理过程及容错处理等在底层进行了封装,大大的简化了并行程序的设计。用户在使用MapReduce进行并行开发时,只需将精力放在并行计算任务的解决上。本文在文本分类应用问题中通过投影寻踪模型将文本进行降维,把文本投影到一维后进行分析,其中投影方向的优化采用粒子群优化算法来实现;利用MapReduce模式设计与实现了粒子群投影寻踪算法的并行化,以提算法的效率;在分类阶段使用了基于MapReduce的KNN分类算法并行。在复旦数据集进行的实验结果表明,基于MapReduce实现的粒子群投影寻踪模型能够有效地寻找到较好的投影方向,确保分类效果;并且与其串行算法相比,在实现效率上有较大的提高。
其他文献
随着现代移动通信的蓬勃发展,频带利用率与通信质量成为目前该领域两个突出的问题。寻找低速率、高质量和低成本的语音声码器成为解决这些问题的有效途径。码激励线性预测编码
随着加工制造产业的快速发展,三维模型部件被大量使用,这使CAD模型检索技术得到了广泛地应用。在加工设计过程中,如何高效地从模型库中检索和复用CAD模型是一个关键问题。目
遗传算法(Genetic Algorithm,简称GA)是美国学者Pr.John Holland和他的学生对自然界中生物系统进行的计算机模拟研究。它是由美国Michigan大学的Pr.John Holland于1975年首先
在现在的网络应用中,P2P技术已经非常普及,随之而来的各种安全问题也日益凸显,因此对P2P的安全性提出了新的要求。由此可知,开展在当前环境下的P2P安全性研究具有重要的意义和价
在网络技术快速发展的今天,基于P2P技术的流媒体业务发展迅猛,人们对互联网上各种流媒体应用需求越来越多、应用越来越广泛,流媒体应用已经成为当前互联网主流应用之一。随着
视频监控技术是近二十几年发展起来的一门新兴技术,广泛地应用于军事、交通和医疗等安全监控领域。目前,具有实用化的视频监控技术主要采用的是单一的数据采集设备。单一数据
随着互联网技术以及数据存储技术的迅猛发展,科学研究以及社会生活等领域都积累了大量的数据,对这些数据进行分析和挖掘得到其所蕴含的有用信息,成为几乎所有领域的共同需求。传
在诸多领域中不确定性的数据的重要性越来越受到人们的重视。但是传统的数据库都是确定性的,不能对不确定性信息进行处理。因此,不确定性数据管理技术逐渐成为研究的热点之一。
随着无线传感器网络的发展,为随机移动的Sink提供有效的数据交付是无线传感器网络中的重要问题。需要传感器网络能够支持向多个随时随机移动的Sink交付数据的应用需求正在急剧
伴随着现在各种网络技术的快速发展,使得各类Internet应用种类发展日趋繁多,从最开始单纯的文字文本传输开始,到后来出现的音频、视频直播与点播等一系列的数字多媒体应用。