面向大数据的云搜索引擎设计及并行K均值聚类算法研究

被引量 : 0次 | 上传用户:weiqing1120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对目前面向大数据搜索引擎本中存在的结构复杂、实施难度高、维护成本高等问题进行分析研究,提出一种基于YARN(Hadoop 2.0)云计算框架面向大数据的云搜索引擎设计方法。并针对面向大数据的搜索引擎中的并行化K均值聚类算法存在自适应性差的问题进行重点研究,提出了一种并行化自适应Canopy-K-means算法,在本文搭建的Spark on YARN云计算平台上进行了对比实验,验证了算法的有效性。本文在研究面向大数据的云搜索引擎设计方法及所需的数据挖掘算法方面所做的主要工作有:①通过对目前国内外的研究机构及科技公司在面向大数据的搜索引擎方面的相关进展与成果进行调研与分析,总结了目前该方向的发展现状与存在的难点。在此基础上对Hadoop云计算框架进行了详细的研究、对其核心的Map-Reduce计算模型进行了分析,在此基础上还对Spark云计算框架的相关理论进行了研究与分析,最后还实际完成了Spark on YARN云计算平台的搭建。②本文基于对YARN云计算框架的研究提出了一种面向云大数据的搜索引擎设计方法,该方法涉及两个阶段:数据组织阶段与对比检索阶段。该方法以设计一个面向大数据人脸的搜索引擎为应用实例,详细介绍了如何基于本文所提出的面向大数据的搜索引擎设计方法,设计实施一个基于YARN云计算框架的面向大数据人脸识别的搜索引擎。③本文对面向大数据的云搜索引擎数据组织阶段中数据挖掘算法进行深入的研究,提出了一种基于Map-Reduce计算模型同时运行于Spark云计算框架的并行化自适应Canopy-K-means聚类算法。该算法的特点是使用统计学的方法,对并行Canopy-K-means算法进行了自适应参数估计优化,解决了Canopy过程中参数依赖人工经验选择的问题,并使用Spark云计算框架进行实现。实验结果表明:并行化自适应Canopy-K-means算法较普通的Canopy-K-means算法在聚类效率的稳定性上有较大的提高,而且在基于Spark on YARN云计算平台的算法实现使得程序既能高效的运行,又不受数据规模的影响,保证了算法的高效与可靠性。
其他文献
本文提出,世界锡矿存在着三个全球性带状分布系统与构造-成矿体系。同时具有长时间、多期性富集成矿过程及高度的富集继承性,从而可划分为初生、复生以及迭生型三类成矿域与
目的:探讨时间空间关联成像(STIC)联合高分辨率血流成像(HD)技术在胎儿迷走右锁骨下动脉诊断中的价值。方法:回顾性分析产前超声诊断的21例迷走右锁骨下动脉胎儿的超声心动图
目的:观察紫及纳米乳(ABN)的抗炎、镇痛、止血及促进伤口愈合作用。方法:以云南白药为阳性对照,将动物随机分为空白组(水或生理盐水)、YB组(云南白药溶液,小鼠给药剂量为0.06
目的观察噻托溴铵干粉吸入剂(天晴速乐)治疗中重度稳定期慢性阻塞性肺疾病(COPD)的临床疗效,以及对支气管舒张试验不同结果的中重度稳定期慢性阻塞性肺疾病的疗效差异。方法
西塘镇位于嘉善县中部偏北,距县城11公里,镇区面积1平方公里。这里地势平坦,河流密布,自然环境十分幽静。特别是古镇区内保存的明清建筑群,不仅具有较高的艺术性,而且在古建筑防火
噪声干扰是一种通用的干扰措施,是最重要的干扰样式之一。介绍了调幅、调频、调相干扰样式,基于In序列的伪随机码代替白噪声产生方法,作Box-Muller变换,将随机数变为服从高斯分布
路面雷达作为一种高效、快速、连续、无损的路面检测设备,其在路面的重要技术性能指标如厚度、压实度、空隙率、含水量以及沥青含量等中的应用,自80年代以来一直是工程界和相关
场地是体育教学必备的条件,场地也是决定学生身心健康发展的先决条件,没有场地的体育教学犹如无水之源无本之木。当前城市学校中,学生活动面积逐步缩小。就我校学生生均五百
MBO实施中出现的国有资产流失等问题使MBO受到了社会公众的极大质疑。试用中国实施MBO的背景和国企改革本身来分析产生的问题和解决方案,重新构建适合中国国情的MBO,从而进一步
我国劳动密集型企业生产员工离职率过高,影响了企业的用工成本和正常运营.通过对我国东南沿海劳动密集型企业的调研,采用实地调研和SPSS因子分析法对生产员工离职原因进行因