面向减小Hadoop通信开销的Gorder算法的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:sz_yaoli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术成为近年来的研究热点。KNN Joins问题是数据挖掘中的典型问题,在数据挖掘中的知识发现、空间数据库和数据清洗等领域发挥作用。该问题包含近邻查询与Joins操作两个方面,这两个方面都是计算消耗型。当数据量增大,解决该问题的CPU消耗、I/O消耗等是巨大的。提高解决KNN Joins问题的算法性能是必要的。为了在面临大数据时数据挖掘问题仍然能够高效的解决,并行化是有效的方法。在并行计算中,Hadoop采用Map/Reduce编程模型进行计算。其中Map/Reduce编程模型作为一种简单、易扩展、高容错的并行编程模型,得到了广泛的应用。   本文利用该编程模型对算法进行并行化,解决大数据处理过程中的效率问题是普遍被采用的方法。采用Hadoop平台并使用Map/Reduce编程模型对KNN Joins问题算法进行并行化设计是可行而有效的。目前关于KNN Joins问题如何高效、准确的解决已有了相关的研究。其中包括单机算法,也包括采用Map/Reduce编程模型的并行算法,这些算法在效率、性能等方面都做了尝试和提高。本文选取了解决KNN Joins问题典型单机算法的Gorder算法,将之利用Map/Reduce编程模型并行化,分析并解决过程中的通信优化问题。通过大量的实验,证明本文设计的并行算法在效率方面、性能方面较已有算法都有一定的提升,并具有可扩展性。
其他文献
2004年石墨烯的发现提供了一个全新的看待碳材料的角度:0-维的巴基球、1-维的碳纳米管、3-维的石墨均可以被视为2-维的石墨烯的衍生体。石墨烯具有优良的光学特性,这是它引人
Wi-Fi Direct技术是近年新兴的近距离无线通信技术,该技术无需Wi-Fi热点即可实现设备之间的互联互通,既继承了传统Wi-Fi技术性能优势,又可向后兼容现有的大部分Wi-Fi设备,在近距
随着图像处理技术的迅速发展,图像处理被应用到了越来越多的领域。在医学图像处理领域,医学图像去噪对于后续处理过程来说是很重要的一个环节。由于超声成像原理的限制,斑点噪声
汽车在人们生活中扮演着越来越重要的角色,安全畅通的驾驶环境是交通系统的理想状态。交通标识识别是智能交通系统的重要组成部分,它主要包括交通标识的目标定位和目标识别两
心脏疾病是威胁人类健康的常见疾病之一,心电图被用作预防和监测心脏病的手段,在国内外得到了广泛应用。便携式动态心电仪可以长时间持续监测人体心电信号,其低功耗和低成本的硬
近年来,无线传感器网络的发展日新月异,越来越多的机构开始致力于其研究开发与商用的工作中。作为无线传感器网络的典型应用之一,远程环境监测正随着人们对环境问题的日益关注而
自从上世纪80年代以来,移动通信系统历经了1G、2G、3G、以及即将运营的4G发展阶段,呈现了迅猛发展的态势。期间出现了以码分多址(CDMA)、时分多址(TDMA)以及频分多址(FDMA)等
为了适应移动互联网的快速发展,及应对IEEE联盟Wimax技术的挑战,3GPP在发布LTE Rel-8后,启动了LTE-A的标准化工作,引入了协同多点传输技术(Coordinated Multi-Point Transmission
铝电解电容作为分立元件是现代电子工业中不可替代的基本电子元件,而化成箔则是生产铝电解电容的关键材料。电子信息产业的飞速发展使得高质量的化成箔需求量增加。尤其是高
近几十年来,协作通信技术在无线通信领域中得到了广泛的应用。从本质上来讲,协作通信可以被看作一种广义的MIMO概念,它是通过构成虚拟的天线阵列从而使终端用户获得空间分集的协