论文部分内容阅读
在当前大数据时代,网络技术和硬件设备的飞速发展造成指数性的数据增长。尽管在小数据集上,传统的数据挖掘技术已经得到了充分的发展和利用,证明了其巨大的价值与意义。但是在海量数据的挑战下,数据挖掘领域仍然存在着算法执行效率低、算法并行优化不够以及数据挖掘平台易用性差等问题。当前主流的分布式计算框架,主要有Hadoop、Storm和Spark。其中Storm为流式处理引擎,用于解决数据流的实时计算问题。Hadoop属于批处理计算框架,应用于海量数据的存储与计算。其中HDFS组件面向大数据存储,具有高可靠、高容错和高扩展等优点,MapReduce模型则极大地简化了并行编程工作。而Spark是新一代的基于内存的并行计算框架,其提出的RDD模型更加简单,在执行效率上也远胜于Hadoop。本文基于上述背景,调研了当前并行数据挖掘领域发展现状,主要针对并行数据挖掘算法和并行数据挖掘工具进行研究。基于Spark作为编程模型和处理引擎,本文主要完成了以下工作:(1)KMeans++算法优化及并行化:研究了聚类问题中的典型算法KMeans及KMeans++的原理和实现方式。分析了算法优劣,并针对KMeans++算法初始化聚类中心可能不够理想的问题,基于动态调整聚类中心的思想,对KMeans++算法进行了改进,并且实现了改进后算法的并行化。实验中相较于Spark MLlib中的KMeans++算法,改进算法在k值较大的情况下误差平方和降低了4%以上。(2)支持向量机(Support Vector Machine,SVM)并行算法优化。调研了分类问题及线性SVM算法的原理,以及采用小批量随机梯度下降法和自适应梯度下降法求解SVM问题的过程。研究了自适应梯度下降法求解SVM的常规并行算法的实现方式,并基于延迟更新思想对常规并行SVM算法进行了迭代优化。优化后算法与Spark中的SVM算法相比,在不损失较高正确率的前提下,缩短了算法的执行时间。(3)为验证和应用上述优化算法,本文基于Hadoop和Spark设计并实现了一种分布式的并行数据挖掘调度框架,可以满足用户对于大数据集的挖掘分析需求。调度系统实现了常见的分类、预测、聚类以及数据预处理等数据挖掘算法,并可以通过可视化拖拽算法程序来完成数据挖掘建模。