基于GPU能耗分析的集群可靠性方法

来源 :上海理工大学 | 被引量 : 0次 | 上传用户:liongliong441
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,随着物联网、人工智能、生命科学等领域对大规模计算系统的需求以及半导体工艺技术的发展,GPU集群以其高处理能力为大规模计算带来了更高的性能。然而,设备的高集成度,高密度的晶体管刷新频率使计算系统产生过高的能耗,同时也导致计算系统可靠性问题日益严重。因此,有效的能耗分析和可靠性提升方法是大规模计算中亟待解决的问题。针对上述问题,本文的研究内容和创新点体现在以下几个方面:1.分析不同程序对不同类型GPU的计算资源和存储资源的使用情况,并由此确立不同程序中主要核函数(kernel)的类型。在此基础上,提出两级并行性能优化模型,分别从线程级和指令级对并行算法的性能进行优化。2.提出基于功耗计算系统的容错模型。为精确计算各处理器能量消耗,设计了基于无线传感网的集群能耗计算系统,通过采集的实时电流以及相关的数学模型获得所有设备的能耗。在此基础上,提出了一个多指标实时监控的异步检查点方案来控制特定的检查点间隔。并根据电流及功耗变化情况动态调整检查点间隔以减少容错时间开销。另外,为了优化容错结果,我们还在可选范围内调整检查点位置以减少需要保存的冗余数据量。3.提出一种适用于低依赖性程序的动态任务流迁移方法(dynamic taskflow migrationapproach,DTMA)。使用DTMA,能够有效降低能耗过高节点负载,提高设备能效,有效避免瞬时故障并提高计算系统可靠性。4.提出一种适用于高依赖性程序的数据流自然属性优先的资源调度方法。采用启发式和遗传算法的思想,在充分考虑GPU和任务类型的条件下,寻找近似最优的分配方案;针对高功耗导致节点崩溃的问题,提出一种动态资源调整方案减少设备负载。虽然减少任务负载影响某些任务的执行性能,但它可以通过牺牲局部最优性能来获得全局最优的可靠性。最后,使用深度学习中的卷积计算验证本文的性能优化思想,针对不同规模的卷积计算,平均性能提升为20.57%。在此基础上,使用本文的可靠性模型进行道路车辆检测,在YOLO v3模型的不间断长时间运行的情况下获取各节点中实时功耗,并根据功耗变化进行任务调度及迁移以保证计算系统能够长时间安全可靠的运行。在本文的计算环境中,系统故障减少为0,有效提高了系统可靠性。
其他文献
改革开放以来,随着我国工业化和城镇化进程的加快,区域经济联系越来越密切,城乡经济资源的空间集聚化日趋明显,其标志是城镇化加速发展,都市圈、尤其是大都市圈逐步形成并不
会议
第三方资助作为一种新型的法律投资形式在国际仲裁领域的应用已经日趋成熟,在帮助当事人降低仲裁门槛、促进仲裁机构发展等方面发挥了显著作用。很多普通法系国家逐渐突破禁
外语学习是一个复杂的过程,学习过程常常会涉及学习策略的使用。语法作为外语学习中不可或缺的一部分,更是贯穿初中英语学习的每一个阶段。语法学习策略是语言学习策略的一种,是指学生有意识地为了更好地学习、掌握和使用语法结构而出现的深思熟虑的想法和行为。合理的语法学习策略的使用可以促进语法学习效果。在目前的研究中,研究外语学习策略的研究已经越来越多,但却存在研究不平衡现象,听力、词汇、阅读等学习策略被越来越
文化景观类遗产的保护不仅是国内外遗产领域研究的前沿,也是遗产保护技术方法中的难点。近年来,国际上聚焦利用GIS技术对文化景观价值进行整体性保护,逐步建立了跨越精英与大
近年来,随着ISO/IEC17025《检测和校准实验室能力的通用要求》等标准的颁布和实施,使检测实验室质量管理体系的建设工作逐步趋向科学化和规范化。大量的检测实验室依照这些文
随着海洋开发的快速发展,人们对海洋环境的探索愈加深刻。双目立体视觉是一种对水下环境探索非常好的方式。然而,由于水下的复杂环境,摄像头在水下拍摄发生折射问题,造成图像的畸变,以及水下环境对光线的吸收、散射和衰减的作用,水下图像往往存在质量下降的问题,如模糊和颜色失真。这对水下作业任务系统具有很大的阻碍。本文针对水下立体视觉的应用,主要完成了以下工作:(1)研究了关于相机的标定方法,针对水下摄像机成像
基于核心素养和教学改革的要求,高中英语课程标准进行了全面的修订,指出以学生发展为本,倡导学生自主、合作的探究性学习。语法学习是英语课堂中的重难点之一,而语法学习策略是提高语法学习效率、英语学习能力的关键手段。此有必要了解目前高中生英语语法学习策略使用情况,分析其中存在的问题,并提出改进建议。作者主要以认知主义与显性隐性知识为理论基础,对吉林省吉林市两所高中的203名高中生进行问卷调查,并基于问卷调
环境会计可以分为外部环境会计和环境管理会计。环境会计核算标准可以分为货币计量标准、物量计算标准 (非货币计量标准)、记述信息标准三个层次,而以货币计算标准作为核心来
目的:探索数字化康复网络体系建立方法。方法:依托数字化网络平台,结合康复医学智能化管理,形成一套切实可行的康复医学信息系统为背景的数字化管理模式下的康复网络。结果:
自莫迪格利安尼-米勒模型(Modigliani Miller Models)提出以来,企业资本结构相关研究已成为公司金融的重要议题之一,并逐步在商业银行领域得到应用。按照银保监会法人机构统计口径,我国商业银行主要包括国有大型银行、全国性股份制商业银行、城市商业银行和农村商业银行等,后两类机构属于区域性商业银行。与全国性商业银行相比,区域性商业银行具有资产规模较小、数量众多、展业区域集中等方面的特点