论文部分内容阅读
本文针对目前面向大数据搜索引擎本中存在的结构复杂、实施难度高、维护成本高等问题进行分析研究,提出一种基于YARN(Hadoop 2.0)云计算框架面向大数据的云搜索引擎设计方法。并针对面向大数据的搜索引擎中的并行化K均值聚类算法存在自适应性差的问题进行重点研究,提出了一种并行化自适应Canopy-K-means算法,在本文搭建的Spark on YARN云计算平台上进行了对比实验,验证了算法的有效性。本文在研究面向大数据的云搜索引擎设计方法及所需的数据挖掘算法方面所做的主要工作有:①通过对目前国内外的研究机构及科技公司在面向大数据的搜索引擎方面的相关进展与成果进行调研与分析,总结了目前该方向的发展现状与存在的难点。在此基础上对Hadoop云计算框架进行了详细的研究、对其核心的Map-Reduce计算模型进行了分析,在此基础上还对Spark云计算框架的相关理论进行了研究与分析,最后还实际完成了Spark on YARN云计算平台的搭建。②本文基于对YARN云计算框架的研究提出了一种面向云大数据的搜索引擎设计方法,该方法涉及两个阶段:数据组织阶段与对比检索阶段。该方法以设计一个面向大数据人脸的搜索引擎为应用实例,详细介绍了如何基于本文所提出的面向大数据的搜索引擎设计方法,设计实施一个基于YARN云计算框架的面向大数据人脸识别的搜索引擎。③本文对面向大数据的云搜索引擎数据组织阶段中数据挖掘算法进行深入的研究,提出了一种基于Map-Reduce计算模型同时运行于Spark云计算框架的并行化自适应Canopy-K-means聚类算法。该算法的特点是使用统计学的方法,对并行Canopy-K-means算法进行了自适应参数估计优化,解决了Canopy过程中参数依赖人工经验选择的问题,并使用Spark云计算框架进行实现。实验结果表明:并行化自适应Canopy-K-means算法较普通的Canopy-K-means算法在聚类效率的稳定性上有较大的提高,而且在基于Spark on YARN云计算平台的算法实现使得程序既能高效的运行,又不受数据规模的影响,保证了算法的高效与可靠性。