基于CUDA的并行SOM算法优化及应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:samsam1005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及,互联网用户数持续不断增长,网络上每天产生大量的数据。同时,一些具有大规模用户的信息系统,每天新增大量的数据。数据挖掘和机器学习算法为我们从繁杂的数据中提取有价值的信息提供了可行的方法,但是这些算法的学习流程复杂,往往需要迭代学习,处理大规模的数据时间代价大。虽然有用信息能被挖掘,但是信息可能已经不具有时效性,这就需要加速算法的执行。采用高性能机或CPU集群的方式固然能加快算法的执行,但是企业需要承担巨额的资金投入。目前,多核技术已经发展的相对成熟,GPU的性能远远超过了CPU的性能,利用GPU的多核特性,充分发掘算法的并行能力成为科学研究领域的热点。本文主要研究的就是如何将SOM算法进行并行化改造,使其在CPU和GPU协作的环境中加速,并利用CUDA平台来加速文本数据的聚类过程。本文从数据挖掘算法中的SOM聚类算法的发展和当前瓶颈出发,重点研究了SOM算法在CUDA环境下的并行学习方法和CUDA加速文本聚类的方法,取得了以下的研究成果:本文对SOM算法的概念和逻辑设计进行了研究,设计并实现了基于CUDA平台的并行SOM算法,充分利用了GPU的多核性能。经过实验证实,并行的SOM聚类算法在大数据环境下,加速效果十分明显。本文设计了利用CUDA平台加速文本挖掘中文本特征向量计算的方法,这种方法改进了传统的串行文本特征向量提取方法,经过实验证实,采用并行计算文本特征向量的方法可以获得优秀的加速效果。通过使用CPU和GPU的协作框架,对算法任务进行了合理的分配,实现了基于CUDA平台使用并行SOM算法进行文本聚类的加速。经验证,利用CUDA平台可以有效的加速文本聚类。基于上述算法创新,本文实现了基于CUDA的并行SOM文本聚类系统,并使用了合适的数据集对改进的并行算法和串行算法进行了对比试验,实验证明,并行的SOM算法用于文本聚类,可以充分利用GPU多核高性能的特点,在大规模高维数据的应用环境中实现快速文本数据自动聚类,可以大大缩短聚类的时间。
其他文献
鲁西南平原,地势平坦,阔野千里。菏泽市位于鲁西南中部一京九铁路与新石铁路的交汇处,是华北重要的交通枢纽之一。荷泽市地处聊考断裂带南段东侧和菏泽断裂带的西段,根据区
吉县国营沙坪煤矿是中小型企业,1998年7月份改制为国有独资责任有限公司,换了个牌子,面貌依旧;新春伊始,换了个法子,焕燃一新。所以,我们对该企业变化的前后进行了一番详细考察。一、国企
随着互联网的迅速普及,网络上面涌现了大量用户评论信息,这些评论信息表达了评论者对于产品或者事物的态度或者看法。对评论信息进行深入挖掘分析,可以为消费者和公司提供相关产
提出了一个新的微观的三维交通动画模拟系统,可应用于复杂的城市路网结构,生成具有丰富细节的交通场景模拟动画。城市道路之间由多种方式连接,如信号控制路口、分流、汇流等
[摘 要] 伴随着经济全球化,国际化人才培养已成为世界范围内展开的教育实践活动。文章结合十九大报告,根据国家及天津市高等教育政策,总结天津市本科高校国际化人才培养现状,提出新时代背景下国际化人才培养策略,建议高校将人才培养与国际交流两大核心使命相结合,通过国际化人才培养,实现学校国际化发展。   [关键词] 国际化人才;人才培养;本科高校   [中图分类号]G642 [文献标志码] A [
目的:探讨艾曲波帕联合低剂量利妥昔单抗治疗伴有慢性疾病的老年原发免疫性血小板减少症(ITP)患者的疗效及安全性。方法:回顾性分析东莞市人民医院2019年7月收治的1例伴有多种
视频监控已经成为保障铁路行车安全的重要手段之一,视频监控系统通过对重点区域实时采集视频信号并传送到监控中心,监控人员可以通过视频图像直观的对异常情况进行判断。传统
尊敬的各位领导、各位来宾:你们好!今天,我们欢聚一堂,在风景优美、人杰地灵的海南省胜地——博鳌召开今晚传媒集团众赢2008广告年会,并向荣获"2007最具市场影响力诚信品 Di
2006年8月,开滦日报在社会周刊上开办了一个与读者互动的专栏——这事给您问了。这个专栏每周一期。由读者提出问题,记者采访相关政府部门,对问题做出解答。2006年10月,一位
图像是人们获取信息、保存信息和传递信息的重要手段,在人们的生活中占据了重要的地位,尤其是文本图像,其中包含的信息往往非常重要,也因此人们对于文本图像的质量要求很高。