论文部分内容阅读
随着计算机的普及,互联网用户数持续不断增长,网络上每天产生大量的数据。同时,一些具有大规模用户的信息系统,每天新增大量的数据。数据挖掘和机器学习算法为我们从繁杂的数据中提取有价值的信息提供了可行的方法,但是这些算法的学习流程复杂,往往需要迭代学习,处理大规模的数据时间代价大。虽然有用信息能被挖掘,但是信息可能已经不具有时效性,这就需要加速算法的执行。采用高性能机或CPU集群的方式固然能加快算法的执行,但是企业需要承担巨额的资金投入。目前,多核技术已经发展的相对成熟,GPU的性能远远超过了CPU的性能,利用GPU的多核特性,充分发掘算法的并行能力成为科学研究领域的热点。本文主要研究的就是如何将SOM算法进行并行化改造,使其在CPU和GPU协作的环境中加速,并利用CUDA平台来加速文本数据的聚类过程。本文从数据挖掘算法中的SOM聚类算法的发展和当前瓶颈出发,重点研究了SOM算法在CUDA环境下的并行学习方法和CUDA加速文本聚类的方法,取得了以下的研究成果:本文对SOM算法的概念和逻辑设计进行了研究,设计并实现了基于CUDA平台的并行SOM算法,充分利用了GPU的多核性能。经过实验证实,并行的SOM聚类算法在大数据环境下,加速效果十分明显。本文设计了利用CUDA平台加速文本挖掘中文本特征向量计算的方法,这种方法改进了传统的串行文本特征向量提取方法,经过实验证实,采用并行计算文本特征向量的方法可以获得优秀的加速效果。通过使用CPU和GPU的协作框架,对算法任务进行了合理的分配,实现了基于CUDA平台使用并行SOM算法进行文本聚类的加速。经验证,利用CUDA平台可以有效的加速文本聚类。基于上述算法创新,本文实现了基于CUDA的并行SOM文本聚类系统,并使用了合适的数据集对改进的并行算法和串行算法进行了对比试验,实验证明,并行的SOM算法用于文本聚类,可以充分利用GPU多核高性能的特点,在大规模高维数据的应用环境中实现快速文本数据自动聚类,可以大大缩短聚类的时间。