论文部分内容阅读
随着现今时代信息的飞速发展,互联网已经步入大数据时代。在面对海量的数据,用户如何快速找到满足自己需求的信息成为学术界急需研究的热点难题。互联网海量数据导致数据挖掘技术要求变得越来越迫切。通过数据挖掘方法,系统可以实现从海量数据高效挖掘出精准数据。数据挖掘中的分类算法是预测数据趋势、推荐迎合用户意愿数据的有效手段。K近邻分类算法又是查询大规模空间数据的常用数据挖掘分类算法之一。算法在云计算平台运行,可以进一步提高数据挖掘算法的运算速率。Spark云计算平台是基于Hadoop云平台的进一步优化,不同于Hadoop的完全依赖HDFS文件系统,Spark实现了在内存中处理数据集,进一步提高了云平台的数据处理速度。针对用户快速获取信息的需求,本文在Spark云计算平台上,使用并行化的改进K近邻分类算法实现为用户快速提供推荐数据的目标。本文提出两个优化点:第一,本文对K近邻分类算法索引创建技术进行改进,提高算法查找最近邻数据点的效率。传统的K近邻分类算法主要制约因素是查找最近邻数据点效率低,Kd Tree是应用于K近邻分类算法索引创建的查找效率较高的数据结构。影响Kd Tree的运行效率主要在于算法运行过程最近邻节点查找中对非叶子节点的回溯。本文通过优化Kd Tree中待分类数据点范围与分割平面线的相交概率,减少K近邻分类算法在查找最近邻数据点时回溯节点的数目,实现提高K近邻分类算法的分类效率。第二,本文优化算法运行的环境,实现了提高算法分类效率的效果。本文对改进的K近邻分类算法实行并行化,使算法能很好的适应云计算平台的数据处理模型。本文使用Spark云计算平台环境实现并行化的改进K近邻分类算法,在保证算法准确度的前提下,提升了算法的分类速度。在实验数据选取上,本文选用了UCI机器学习数据集。实验对比单机情况下传统K近邻分类算法和改进K近邻分类算法的效率和准确率、Spark云平台上改进K近邻分类算法和单机上改进K近邻分类算法的算法处理效率,得到在Spark云平台运行的改进K近邻分类算法,在保证算法分类准确率的前提,较大的提高了算法效率的结论。