MapReduce框架下的增量计算技术及算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:gui_123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今的大数据应用往往具有一个共同的特点,同样的计算往往在不断变化的数据上重复执行,例如社交网络数据和网页数据。在这些应用中只是少量数据发生改变,如果重新计算则工作量很大,浪费资源,因此增量计算是解决该问题的有效手段。作为分布式计算中的有效工具,MapReduce框架能够高效地进行批量计算,但无法直接支持增量计算,本文主要研究基于MapReduce的增量计算技术及算法,具体工作如下:1.基于MapReduce的增量计算框架设计与实现本文针对一般问题,设计并实现了一种简洁有效的增量计算框架。主要思路为:利用数据的哈希信息发现数据中重复计算的部分,避免数据的重复计算,只对新增或变化数据进行Map任务处理,并移除删除数据计算出来的中间结果,然后将经过Map处理后,新数据产生的中间结果与剩下的之前计算好的中间结果合并,再进行Reduce计算。本文设计的增量计算框架在Hadoop平台上进行了实现,而底层未做任何修改。实验表明即使数据变化比例达到25%,相对于重新计算,一些应用的加速比仍能达到1.8左右。2.基于MapReduce的增量矩阵乘法设计矩阵乘法被广泛应用在机器学习、推荐系统、社交网络等领域中,这些应用中也往往面临数据的增量变化。对于矩阵乘法计算,提出的增量计算框架存在计算效率不高的问题,鉴于此,本文提出了变化数据识别的改进方法,在原有框架上的哈希方法识别基础上再进行细粒度的元素级检查,设计了一种矩阵乘法增量计算方法,不需对MapReduce框架进行特别设计和改动,通过算法自身来识别矩阵中变化的元素,以变化元素为粒度进行细粒度增量分析与处理。实验表明该增量矩阵乘算法在矩阵元素变化率较低的情形下,具有较好的性能和实际应用前景。
其他文献
现有中文自动文摘技术存在原文内容覆盖不全面以及信息冗余的问题。针对上述问题,本文开展了相关的研究工作。结合已有的“统计全切分中文分词系统”,本文首先提出了基于通用
随着移动通信、无线网络和视频技术的发展,出现了诸如无线PC相机、移动视频电话及无线传感器网络等一些新的视频应用,这些新的应用需要低功耗、低复杂度的编码设备。然而,传
Web服务为企业IT体系结构带来互操作性、灵活性和复用性,改变了商业伙伴之间的合作方式,使企业能通过服务组合来共享资源,自动化商业流程。Web服务组合问题近年来成为研究热
随着嵌入式技术的发展,外部硬件设备的价格逐渐下降,嵌入式系统存储能力迅速提高,应用中出现了越来越复杂的数据资源需要管理。如何有效地管理数据成为嵌入式系统开发中的重
自从20世纪60年代MRP(物料需求计划)在美国出现到现在,以物流技术为主的供应管理系统也日趋成熟。但随着市场竞争的加剧,使得企业也不得不跟随市场的需求变化而变。如何在当
企业服务总线(Enterprise Service Bus, ESB)支持异构环境中的服务、消息以及基于事件的交互。Web服务客户端为企业服务总线中集成的服务调用提供了一种能力。然而,现有的Web
传统的计算机体系结构中,运算单元一般可以分为两类:一类是通用处理单元,该类运算单元依循特定指令集,通过软件编程方式进行运算,其特点是通用性强但性能不高;第二类是采用ASIC
遗传算法是一种基于概率导向的随机搜索算法,已被成功地应用到多种学习任务和最优化问题中。对于遗传算法,策略(包括算法流程、算子及其控制参数)的设计和选择至关重要,会对
随着语义Web技术的标准化,关联数据在各领域得到广泛推广和应用,使得关联数据的发布达到空前规模,这导致了关联数据的存储和传输难度增大。通过压缩技术减小关联数据体积的方
图像的超分辨率重建是指从相同场景的单幅或多幅低分辨率图像中重构出一幅包含更丰富细节的高分辨率图像的技术。这一技术突破了硬件成像系统的限制,经济且有效地提高了图像