论文部分内容阅读
由于传统的SVM的应用最常用的是MPI(Message Passing Interface)技术,但是MPI对大数据集显得繁杂、不实用,并且基于并行向量机(Support Vector Machine)的虚拟筛选不仅要面对巨大数据集,还要进行O(n2).这样复杂庞大的计算.针对以上问题,在集群方面采用MapReduce对超大数据集进行数据分析.本文采用Spark一种迭代式MapReduce编程模型,提出一种基于SVM虚拟筛选的MapReduce执行方案,分析了HDFS和Spark结合使用才能实现对数据的并