基于GPU的文本聚类算法的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:tmhou5648
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、移动互联网的和企业信息化的迅速发展,出现了越来越多以文本形式存储的信息,如何从这些数据中获得有价值的信息成为了计算机科学与技术领域的一个挑战。文本聚类可以发现文本之间的相关程度,将文本进行自动归类,是进行文本挖掘的一种关键方法。目前,已存在很多聚类算法可以应用到文本聚类任务中,其中谱聚类算法是一种基于谱图理论的聚类算法,它最大的优势是能够在任意形状的样本空间上聚类并且能够收敛于全局最优解。随着多核、众核处理器的快速发展,并行算法已成为提高程序运行效率的重要手段之一。另一方面,GPU能够提供强大的并行能力和存储带宽,并且提供了具有良好可编程性的CUDA平台,为编写基于GPU的并行程序提供支持。因此本文主要研究如何利用CUDA编写并行的谱聚类算法程序,并应用到文本聚类中,以提高聚类算法效率。本文详细分析了基于谱聚类的文本聚类算法实现步骤和时间复杂度,并对基于CPU的串行谱聚类算法执行时间进行分析。算法的高复杂度和良好的可并行性都证明其非常适合于在GPU上进行并行。在本文的并行实现部分,首先将谱聚类算法的各个步骤划分为CPU端程序和GPU端程序,划分时充分考虑各个步骤的复杂度和CPU端和GPU端的通信情况。在GPU端进行并行的部分主要包括相似度矩阵的计算、拉普拉斯矩阵的计算、Lanczos法和K-means聚类算法。实现时将以上步骤抽象为矩阵和向量运算的形式,并参考了现有矩阵向量运算的CUDA实现和CUDA提供的矩阵向量运算函数库,最后且根据GPU的体系结构特点和CUDA的执行模型对并行程序进行充分的优化。在Geforce GTX260型号的GPU上多个数据集的测试结果显示,本文实现的基于谱聚类的并行文本聚类算法具有良好的加速效果。
其他文献
近些年来无线传感器网络的发展,促进了物联网概念的提出。物联网能够依靠传感器、RFID、红外等技术,拓展人们的感知范围,让人们的生活、工作更加便利和智能化。煤矿生产有其自身
随着大数据时代的来临,传统数据中心逐渐服务越来越多样性的业务,如高性能应用、大数据应用及互联网应用等等。面对多样性应用的具有巨大差异的通信需求,传统数据中心在单一的网
在当今信息技术迅猛发展的社会,网络构成了信息流通的主要媒介,相关技术日新月异,网络管理系统作为网络中的重要元素也倍受人们关注。尤其是近年来IPv4到IPv6过渡,整个网络环
手语虚拟人动画是人体动画合成研究的一个分支。由于手语的语言特性,人们不仅希望合成真实的人体运动,而且要求生成动画能够正确传递语义信息。手语是一种视觉语言,最突出的特点
存档管理器是基于三维游戏引擎模拟演练系统中的一部分,它负责在模拟演练过程中记录演练场景中的数据,在演练结束后进行场景回放和向用户展示日志信息。设计并实现存档管理器的
数控编程技术是数控加工准备阶段的重要内容之一,是直接影响加工零件精度与加工效率的重要因素。伴随着航空、航天工业的不断发展,飞机结构件、发动机等部件具有多种数控加工特
蛋白质是生物体的重要组成成分,行使催化、免疫、细胞信号传导等重要的生物学功能。蛋白质是以氨基酸为单元,脱水后由肽键连接而成的长链。蛋白质只有在折叠成特定的结构构象之
为了满足航空航天电子系统的发展对高速高可靠数据传输的迫切需求,需要开展对于高带宽、高传输速率、强实时性、高抗干扰能力、高容错性、低误码率的通信网络的研究。  目前
学位
IMS提供了一套多媒体服务的标准体系架构,作为下一代通信网络的核心技术,已经被设备提供商和运营商广泛接受。与此同时,无线网也有了长足发展,移动终端更是得到全面普及,然而基于