【摘 要】
:
针对构建大规模机器学习系统在可扩展性、算法收敛性能、运行效率等方面面临的问题,分析了大规模样本、模型和网络通信给机器学习系统带来的挑战和现有系统的应对方案。以隐
【机 构】
:
并行与分布处理国家重点实验室国防科学技术大学,国防科学技术大学计算机学院
论文部分内容阅读
针对构建大规模机器学习系统在可扩展性、算法收敛性能、运行效率等方面面临的问题,分析了大规模样本、模型和网络通信给机器学习系统带来的挑战和现有系统的应对方案。以隐含狄利克雷分布(LDA)模型为例,通过对比三款开源分布式LDA系统——Spark LDA、PLDA+和Light LDA,在系统资源消耗、算法收敛性能和可扩展性等方面的表现,分析各系统在设计、实现和性能上的差异。实验结果表明:面对小规模的样本集和模型,Light LDA与PLDA+的内存使用量约为Spark LDA的一半,系统收敛速度为Spark LDA的4至5倍;面对较大规模的样本集和模型,Light LDA的网络通信总量与系统收敛时间远小于PLDA+与Spark LDA,展现出良好的可扩展性。"数据并行+模型并行"的体系结构能有效应对大规模样本和模型的挑战;参数弱同步策略(SSP)、模型本地缓存机制和参数稀疏存储能有效降低网络开销,提升系统运行效率。
其他文献
目的:研究酸枣仁汤(SZRT)对高架+字迷宫焦虑模型(EPM)大鼠GABAA受体mRNA表达的影响。方法:行为学结束后取EPM大鼠全脑,提取总RNA,用RT-PCR扩增产物进行半定量分析。结果:SZRT
<正>髓系肉瘤是一种少见肿瘤,2001年版WHO淋巴造血肿瘤分类提出髓系肉瘤的概念,它是由原始或幼稚的髓系细胞在骨髓以外的器官和组织中浸润形成的肿瘤性团块[1]。髓系肉瘤分为
对有洞的和裂缝型储层的分析已经成为一个热点,因而孔隙模型的研究近年得到了很好的发展.目前已经用双孔隙和三孔隙模型研究这类储层的特性并寻找估计孔隙指数的方法,以便计
<正> 人体也是导体,这个问题并不新鲜,但在小学自然课教学中向学生讲清人体是导体又必须注意安全用电这个科学道理,让学生对人体导电的事实有一定的感性认识,却不是件容易的
<正>佛教传入中国已有两千多年的历史。在漫长的历史发展过程中,佛教在与中华传统文化和社会习俗的不断碰撞、冲突和融合中,创造出了丰富而灿烂的文化成果,为中国传统文化宝
目的探讨对接受内镜逆行性胰胆管造影术(ERCP)的患者术后鼻胆管引流的有效护理措施。方法回顾性分析在本院接受ERCP术的30例患者的临床资料,总结术后鼻胆管引流的护理措施。
本文讨论了对斯伦贝谢微球测井仪进行技术改造的几种方法,并给出了最佳方案.
从需求的角度,分析黑龙江省经济增长的动力.利用1978~2006年黑龙江省历年居民消费、投资、全省生产总值数据,运用单位根检验、协整检验、Granger因果关系检验方法进行实证分析
本课题收集汽车维修一线常见整车故障,具体故障具体分析,查找可能故障原因并整理、汇总与分类,最终形成故障资源库。专业课程教学改革中将资源库案例作为课程载体应用于实际