【摘 要】
:
近年来,信息技术的普及和硬件技术的快速发展,为大数据产生与存储提供了先决条件。在商业上、科研机构、政府部门等都存储着大量的数据。而如何从这些大量的数据集中提取有用
论文部分内容阅读
近年来,信息技术的普及和硬件技术的快速发展,为大数据产生与存储提供了先决条件。在商业上、科研机构、政府部门等都存储着大量的数据。而如何从这些大量的数据集中提取有用信息成为了人们日益关注的主题,数据挖掘正是在这样的背景下受到关注并得到了快速的发展。聚类作为数据挖掘的重要工具,是将相似对象划分为同组,不相似对象划为不同组的过程,在各个领域得到了广泛的应用。本文首先介绍了数据挖掘和聚类分析的基础理论,并重点研究了Dirichlet混合模型聚类,接着以Apache Mahout机器学习库为基础,研究了Dirichlet过程混合模型算法及其具体实现。该混合模型是一种以Dirichlet过程为先验的贝叶斯混合模型。Mahout提供了单机实现和MapReduce实现方式,本文主要研究了后者。文中首先以多组数据集作为算法输入来研究Dirichlet过程聚类算法,通过对运行结果的分析,得出算法主要开销集中在map函数的处理这一结论。本文还研究了GPU(图形处理器),并提出了以GPU并行方式来提高算法效率的改进方案。本文研究了GPU的体系架构及其优势,以及CUDA并行编程实现。然后在Mahout提供的Dirichlet过程混合模型算法源码基础上,实现了以JNI调用本地CUDA程序的改进方案,其中,CUDA程序以并行方式来处理了map函数。最后,本文以同样的数据作为输入,并分析了运行结果。通过比较源程序与改进程序的运行性能,得出改进的程序提高了算法效率,当数据量较大时,提升效果更为明显。这些为数据挖掘算法的性能研究提供有益参考。
其他文献
以Internet技术为代表的信息革命正在深刻地改变着我们身边的生活和世界,可以说,互联网的出现为世界的经济发展和社会进步起到了巨大的推动作用。但与此同时,互联网作为一个
下一代互联网IPv6协议克服了IPv4协议的许多缺陷,使其能够更好的适应互联网的发展要求。但是要使IPv6网络代替现有的IPv4网络还需要经历漫长的过渡发展阶段。为了实现IPv6网
随着计算机网络的不断快速发展和广泛应用,维护网络环境的安全已经变得越来越重要。而且由于当前IPv4地址资源不足,IPv4向IPv6过渡已经成为必然。IPv4技术已经成功的在Intern
Internet的一个重要功能是信息的交流和共享,而查询检索又是获取信息的主要方法.网络技术和Web的快速发展给设计开发有效的网络资源检索工具提出了更高的需求.在纵 观国内外
恶意软件从早期的简单病毒、蠕虫逐步进化发展成实现特定目的木马、Rootkit等高级形态,并在网络空间中肆意传播,对用户的计算机系统造成严重的危害。对“暗云”木马、“海莲花
在远程教育管理系统中,远程教育模式按单点或多点、非实时或实时、非交互或交互可分为八种模式.这八种模式的划分实质上就是目前移媒体技术中的CSCW(Computer Supported Coop
近年来,越来越广泛的海量小文件应用,对传统分布式文件系统提出了低延迟的挑战。由中国科学院计算技术研究所基于pNFS自主研发的客户端可写的元数据缓存系统,采用客户端缓存技术
随着互联网的飞速发展,用户需要面对的数据越来越多,要想从这海量的数据中有效地找到符合需求的数据,当前只能使用搜索引擎。然而实际上大多数用户面对搜索引擎返回的成千上
随着云计算、大数据和web服务的发展,数据中心中出现了一类轻量级的可扩展负载。传统高性能服务器对这类负载的适配性不好,主要体现在服务器计算密度低,资源利用率不高以及可扩
随着通信网络和计算机网络的发展,网络融合是下一代网络发展的必然趋势。VoIP (Voice over IP)是在P网络上传送具有一定服务质量的语音的业务,是近几年内发展起来的一种新的