基于GPU的分类与聚类并行算法设计及研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:xbalr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生活在一个信息技术日新月异,网络技术推陈出新的时代,生活中,人们对获取数据的方式也不断发生变革。特别是近年来移动互联网技术的兴起,通过移动终端就能方便的获知用户方方面面的数据信息。随着数据被不断的累积,怎样快速的从这些数据中挖掘出有价值的信息正被各行各业所重视。通常一些大的企业会采取将数据挖掘算法运行在高昂成本的分布式系统上,以加快挖掘速度。在单机环境下,只能采用CPU多线程的方式进行。随着多图形处理器(GPU)的普及以及运算能力的不断增强,在并行线程数量上GPU甚至超过了CPU。面对大型分布式系统高昂的成本以及单机CPU环境下有限的数据处理速度,GPU能以相对低廉的价格获得不错的计算性能。在该背景下,研究基于GPU的数据挖掘算法具有很重要的意义。  分类与聚类是数据挖掘中常被采用的两类算法。通过分类与聚类来发掘隐藏在海量、无规则数据中一些有价值的模式已经得到广泛的应用。本文对聚类中的K-means算法以及分类中的决策树C4.5算法进行了深入的分析。为了加快使用K-means算法进行聚类与C4.5算法进行分类的速度,详细分析了这两个算法的并行性,并将算法中需要进行大量计算的可并行部分移植到了GPU上进行加速处理。同时文中对基于CUDA平台的GPU并行编程模型、CUDA的线程块配置、CUDA存储器模型进行了详细分析,以充分发挥GPU高效的并行计算能力。  本文设计并实现了基于CUDA平台的K-means算法以及C4.5算法。首先,对两个算法进行了针对CUDA平台的并行性分析。在数据能被全部载入显存以及使用的线程数量在GPU设备支持的情况下,提出了对K-means算法采用了一个线程负责一个数据点到中心点距离计算的策略,并且对中心点采用了共赏存储器优化。同时对C4.5算法本文提出了与该算法在CPU执行时不同的并行策略,使用对信息增益率的计算进行拆分最后求和的方式来充分利用GPU的计算资源。实验测试中,首先重点分析了K-means算法在处理不同数据集时的加速性能,结果表明基于CUDA平台的算法对数据处理有很好的加速效果,并且随着数据量的增大加速效果越明显。此外本文对核函数块中线程数量配置对程序执行时间的影响也进行了分析,得出需要根据数据量大小来合理配置块中线程数的结论。接着对普通C4.5算法与通过GPU并行计算信息增益率的新C4.5算法的执行耗时情况进行了分析,并且对新的C4.5算法存在可以进一步优化的地方进行了总结。
其他文献
本文的研究主要分为两个方面,包括常微分方程周期边值问题在不同情况下的数值解法和椭圆型偏微分方程广义解的存在唯一性的论证。首先,详细地讨论了对于常微分方程的一般周期边
煤矿顶板涌(突)水所造成的淹井或矿难,严重威胁着煤矿的正常开采和矿工的生命安全。为了降低矿井开采过程中潜在的危险性,减少由于煤矿涌(突)水所造成的损失,研究有效的矿井顶板
Web服务技术是一项新兴的网络技术,利用它可以方便地实现应用程序之间的互操作。在Internet电子商务中,通过对Web服务技术的引入,可以更好地提供企业组织之间应用程序功能和业务
电信网是由多厂商各种设备组成的异构网络,随着网络规模的膨胀、复杂度的增加、电信网中更多接口的开放,网络管理系统与被管系统之间的网管接口也越来越复杂。 网管接口是实
近年来,处理无限的连续数据流的应用日益流行,比如网络日志、传感器网络等。数据流聚类(datastreamclustering)逐渐成为数据挖掘领域的热点研究问题之一,由于数据流的数据量无限
随着电子商务的日益普及和广泛的应用,传统的企业开发平台正面临着严峻的挑战。由于电子商务的内部逻辑复杂,安全性要求苛刻,商务形式发展变化快,这就要求开发平台提供足够的
本文介绍了利用指纹识别技术开发的考生身份识别系统,该系统可以很好地解决考生身份的确认问题。 本文介绍了本系统应用的关键技术:ADO.NET、MicrosoftWindows2000Server、.
随着我国“十一五规划”的提出,中央政府下了更大的决心以提高政府行政能力水平。电子政务近几年的飞速发展同时也见证了我国政府从传统“管理型”向现代“服务型”政府转变所
多计算机系统中的互连网络为处理器之间相互通信提供了一种有效的机制,是决定系统性能的重要因素之一。在互连网络中,节点间的通信由路由算法实现。路由算法决定了一条消息或
近年来,水平井已逐渐成为世界范围内油气藏增产的重要手段,这使得深入研究水平井的油藏工程理论,准确把握其生产动态成为必要。在水平井生产时,实际有效的产油长度并不是整个水平