面向大数据处理的并行计算模型及性能优化

被引量 : 0次 | 上传用户：ufo747

【摘要】

：

随着大数据时代的来临,从并行机体系结构、计算资源扩展能力到工业界应用模式都在发生显著变化。上述变化为并行计算提供新的发展机遇,同时也带来巨大的研究挑战。其中架构在

【作者】

：

骆涛

【发表日期】

：

2015年期

【关键词】

：

大数据计算模型性能优化数据复本多核技术部分同步地震前兆台网人脸识别深度学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的来临,从并行机体系结构、计算资源扩展能力到工业界应用模式都在发生显著变化。上述变化为并行计算提供新的发展机遇,同时也带来巨大的研究挑战。其中架构在硬件和软件之间的并行计算模型是推动大数据发展的核心技术之一。目前工业界已经研究和开发多种大数据编程模型,并广泛应用在TB级甚至PB级的数据处理与分析上,而学术界正在尝试和探索更抽象的大数据计算模型,来反映当前并行机的属性,揭示大数据任务中计算、通信和访存行为的本质特征,对各种主流大数据处理系统进行统一的理论分析,从而指导大数据应用调优。本文从传统并行计算模型、大数据编程模型和大数据计算模型的相关研究中,总结出大数据计算模型在理论上需要解决的三个基本问题：模型的三要素(机器参数、执行行为、成本函数)问题、扩展性与容错性问题和性能优化问题。本文围绕着这三个问题,一方面从理论上研究大数据计算模型及其性能优化方法,另一方面在实际的大数据案例中应用这些性能优化方法。具体而言,本文的主要研究内容、贡献和创新点可概况为以下几点：1.抽象出一个大数据计算模型：提出了一个面向大数据处理的并行计算模型p-DOT。 p-DOT模型分为p阶段,每个阶段都由数据层D、计算层O和通信层T共同组成,采用矩阵的形式化描述;选取输入数据规模w和机器数n作为主要的两个参数,依照模型所定义的计算、通信和I/O行为共同构造出时间成本函数,并以此推导出对一个给定的大数据任务和给定的环境负载,任务最短运行时间所需的机器数n*和输入数据规模的开方√w成正比。同时,p-DOT模型具有扩展性和容错性,对于一个软件框架,如果其任何一个任务均可用p-DOT模型表示,那么该框架的处理范式是可扩展和可容错的。2.证明模型的成本函数、扩展性和容错性：对于时间成本函数,通过对机器内存大小、机器数和任务执行时间的限制,使构造出的函数更接近于实际,并通过大规模的MPI和MapReduce实验证明该函数及其推论的正确性：对于扩展性,采用传统并行计算性能评测标准中的等效率函数,证明了基于p-DOT模型的处理范式是可扩展的,但不是强可扩展的；对于容错性,在输入数据D都存放在永久性存储设备的前提条件下,证明了基于p-DOT模型的处理范式是可容错的。3.设计基于模型的优化方法并应用：针对p-DOT模型的数据层D、计算层O和通信层T,分别设计了利用数据复本、利用多核技术和利用部分同步策略的性能优化方法。一方面,从理论上证明了1)利用数据复本不仅是大数据任务容错性的必要条件,也能有效地提高任务的I/O访存性能；2)利用多核技术能在不增大通信开销的同时,有效地提高任务的计算性能；3)在任务的收敛条件与原始的不超过阈值θ时,利用部分同步策略能有效地提高任务的通信性能。另一方面,选择了三个实际的大数据案例1)地震前兆台网系统中对关系型地震大数据的查询服务、2)人脸识别系统中利用SVM线性分类器的训练问题、3)深度学习系统中利用卷积神经网络的训练问题,在案例中应用基于模型的优化方法来提升性能,并通过实验证明优化后的加速性能。

其他文献

浅谈如何做好班级管理工作

班级管理工作是学校教育工作中不可缺少的至关重要的工作,是一项繁琐复杂而且周期长的系统工作,班主任是这项具体工作的领导者、组织者和实施者。对上要对学校、社会负责,对

期刊

教育管理沟通引导教育

广东省农业产业化金融支持的实证研究

农业产业化是解决我国“三农”问题的关键,具有广泛的适用性和旺盛的生命力。经过20多年的努力,广东省的农业产业化取得了一定的成绩,在提高农业产业化效率、增加农民收入、

学位

农业产业化金融支持涉农贷款广东实证研究

格式塔视角下古诗词“月亮”意象的翻译研究

中国古典诗词是中国文学艺术的瑰宝,蕴含着丰富的中国历史文化内涵。随着中外文化交流的深入,越来越多的学者和翻译爱好者热衷于古典诗词的翻译,也开始关注翻译中意象传达的

学位

月亮意象格式塔古诗翻译

首都大学生创业意向影响因素研究

大学生创业不仅有利于大学生个人价值的实现,更有利于我国社会经济的发展和产业结构的转型。北京是全国高等院校的中心,聚集了全国乃至世界的著名高校,研究首都大学生创业意

学位

首都大学生创业创业意向影响因素

非虚构写作:叙事视角、路径依赖与现实冲击——对“译文纪实”系列图书的读与思

<正>急速变迁和真相扭曲是我们这个时代的通病之一。面对新技术发展和社会结构变化带来的不适应感,人们渴望在纷纭复杂的社会表象中挖掘更深层次的事实与深意,也渴望在杂乱无

期刊

非虚构写作网络与新媒体报告文学新闻专业主义文学手法碎片化新闻写作时代变迁叙事视角新闻业

P2P网络融资方式的采纳研究

P2P网络融资模式作为新兴的一种民间融资渠道,越来越受到我国社会公众的关注,它为广大手持资金的投资需求者和急需资金的融资需求者提供了满足需求的可能性。众多国内外学者

学位

小微企业网络小微零售商融资难P2P采纳意愿

混凝土介质隐患超声波CT探测技术研究

混凝土结构由于施工不当和外力作用,及其建筑材料性质的影响,造成内部结构的介质隐患。混凝土结构中的介质隐患主要有蜂窝空洞、裂缝和局部不密实。由于这些缺陷,使混凝土结

学位

超声CT正演模型物理模型接触异常

高中班主任通过实践活动提升德育能力的研究

班主任是班级的组织者、协调者、管理者和教育者，是距离学生最近、与学生接触最多、对学生影响最大的教师。本文采用文献资料、问卷调查和现场访谈为主要研究方法，以合肥六中等

学位

高中班主任德育能力实践活动提升

广告点击率预估的深层神经网络模型研究

随着现代科技的飞速发展,互联网广告投放也在全球普及。点击率(Click-Through-Rate, CTR)预估是互联网广告投放的核心问题,通过使用机器学习方法,充分利用广告系统日志中的数

学位

广告点击率机器学习非线性深层神经网络逻辑回归

基于压缩感知的迭代重建算法相关研究

在工业CT无损检测领域，受限于物体尺寸、形状，扫描条件等因素，常常无法获得完备的投影数据。医学CT检查中，如何在保证图像质量的同时，减少投影采样数量，降低患者所受辐射，也是一个热

学位

压缩感知Split-Bregman方法Lp最小化问题加权迭代

面向大数据处理的并行计算模型及性能优化

其他学术论文