大规模数据增量式处理关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:qq1094795388
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前很多需要处理的大数据每天都在不断演变更新,总会有新的数据不断出现,加入现有的数据集合。因为部分数据增加或变化导致重新处理全部的数据,让之前所有的工作失去了意义,使得处理延迟与全量数据的大小成比例增长,而不是只与更新的大小相关,这种方式在大规模数据处理领域是很低效的。此外新数据的计算往往跟历史数据有着很大的关联,不能单独处理。因此针对大规模数据领域的增量式处理是很有意义的工作。   增量模型的核心思想是:缓存历史计算结果,新增数据计算过程中参考历史计算结果进而减少新增数据处理的计算量,将新增计算结果与历史数据融合,实现全量处理的效果。因此增量处理的核心就变成下面两个问题:第一,如何缓存需要复用的历史数据;第二,新增数据计算过程中如何复用历史数据。   本文主要针对增量式数据分块处理模型进行研究,此模型融合了批量处理的思想与数据流处理思想,定期对一段时间内增加的数据进行批量处理。这样可以有效利用批处理计算模型较低的数据平均处理时间,适用于web搜索等领域需要持续处理增量数据的大规模数据处理应用场景。目前,增量式数据分块处理模型采用的技术路线主要是基于MapReduce[DG04]框架的扩展,使得批处理框架可以与带索引的外接存储交互从而实现数据增量式处理。增量式数据分块处理模型的具体实现通常根据自己的需求选择或者实现了不同的存储系统,也决定了各自的增量式处理作业只能在自己的增量式平台上运行。然而实际应用中,数据处理业务逻辑的不同,对存储有不同的需求,因此设计一个支持不同存储类型的通用增量式平台是很有意义的。此外当前大规模数据处理在随机读写方面的性能都难以同小规模数据情况相当,如何进行性能优化也是需要解决的关键问题。   针对上述问题,本文的工作主要包括以下几个方面:   1)结合实际应用场景,从增量式处理角度,对算法进行分类,说明本文研究的增量式分块处理的适用领域,并对增量式处理的性能优势进行理论评估。   2)设计通用的增量式分块处理框架,将用于缓存历史数据的存储系统作为MapReduce框架可配置的模块,实现MapReduce框架与历史数据存储系统的松耦合。   3)针对MapReduce框架与分布式存储系统进行多对多交互的模式中的潜在问题,提出一种预分块存储分组处理的优化策略,提高增量处理中MapReduce与分布式存储系统交互的性能,并给出实现方案。实验测试发现此策略具有优越的性能。   4)实现两种典型的应用场景的增量式计算,实验证明本文设计的增量式模型具有实用性,高效性,透明性,通用性。
其他文献
查询推荐是现代搜索引擎,诸如谷歌,必应和百度等普遍采用的一项重要技术。搜索引擎查询推荐技术的核心目标是为搜索引擎用户推荐能够满足他们信息需求的查询。但是现有的搜索引
网络安全评估是指在具体的网络环境与任务下对一个网络的安全防御能力进行评估。虽然学界对于网络安全评估研究已经二十多年,但是仍有许多问题有待于进一步解决。  传统的网
随着信息技术的发展,多媒体技术的诸多应用已经渗透到人们生活的各个方面。在各种多媒体信息中,最重要的当数视频信息,因为人们从外界获取信息的80%以上是通过视觉获取的。然而,高
自然界一切现象背后都有其物理规律,裂纹的产生与发展则是其中非常复杂而有意义的一种。在工程学领域,研究者们需要了解建筑或桥梁的设计是否合理,结构的什么部位比较脆弱;在
容延容断网络(Delay/Disruption Tolerant Networks,DTN)是一种间歇性连接的无线网络。在这类网络中,通讯节点分布不均匀,通讯状态起伏很大,网络拓扑结构很不稳定,从而导致整个通
随着社会信息化程度越来越高,计算机处理的数据规模越来越大,而且数据的结构通常也具有很强的随机性。如何为这样的研究对象设计高效的算法,如何研究它们的动态演化方式,已成为新
学位
著名的OTIS网络(也叫Swapped网络)和最近出现的Biswapped网络均可用来构建大规模并行分布式系统的互连网络。Biswapped网络可以看做是OTIS网络的一种扩张,因而这两种网络呈现
语音是人类交流最常用的方式,而能让计算机听懂人所说的话一直是人类的理想之一,语音识别技术的出现,使人类的这一理想得已实现。近二十年来,语音识别技术取得显著进步,开始从实验
云计算是一种新兴的商业计算模式,是目前国内外商业和科研机构研究的热点之一,它融合了网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化和负载均衡等传统计算机和