【摘 要】
:
随着数据量不断增加以及机器学习任务的模型越来越复杂,分布式机器学习逐渐成为热点。很多研究工作为了让机器学习算法更快,而利多多个处理器,也即为“并行计算”,其核心目标
论文部分内容阅读
随着数据量不断增加以及机器学习任务的模型越来越复杂,分布式机器学习逐渐成为热点。很多研究工作为了让机器学习算法更快,而利多多个处理器,也即为“并行计算”,其核心目标是把计算任务拆解成多个小的任务,分配到多个处理器上做计算。分布式计算或者分布式机器学习除了要把计算任务分布到多个处理器上,更重要的是把数据(包括训练数据以及中间结果)分布开来。有些系统为了更好支持多次迭代的机器学习算法,抽象出了内存式计算模型。Parameter Sever更进一步,解决了当数据达到PB级别时,模型参数过大放不进单台机器的问题。以Spark为代表的系统缺少模型参数切分的解决方案,无法应对大模型的任务如CNN、高维逻辑回归等参数很大的模型,所以为了为Spark做一个参数服务器具有重要意义。基于此背景,本文调研了 Spark的相关原理和技术,实现了基于Parameter Sever系统,实现了可以进行数据并行的WAF应用。在社交网络的用户数据集上进行了验证,取得了预期的效果。主要完成了以下方面的工作:1.设计了可计算大规模语料集的词激活力模型(WAF)的分布式版本,并进行了验证;2.基于函数式编程和响应式编程理念,设计了分布式Parameter Sever系统;并在此系统上实现了支持模型并行的词向量模型;3.基于设计的系统,完成了对全体微博的用户的关系建模。
其他文献
<正> 一、前言在进行高压输电线路设计与施工计算时,经常用到代表档距这一概念。目前,我国采用下面的公式来计算代表档距: 当忽略高差角影响时,可用下式计算.
<正>护理专家张蕙兰,女,主任护师,1918年出生于山东烟台,是我国肿瘤护理学科的先驱,肿瘤临床康复医学的奠基人。她顷其一生为我国的肿瘤临床康复事业做出了卓越贡献,赢得了一
本文研究重力异常分离的相关法,它由测点坐标的多项式方程构建区域异常,由观测异常减去区域异常计算剩余异常,根据最大化已知测点的目标密度分界面深度与剩余异常的互相关原
目的探讨奥沙利铂联合卡培他滨的新辅助化疗治疗进展期胃癌的临床疗效及安全性。方法选取2013年2月至2014年2月间收治的80例进展期胃癌患者,按照随机数字表法分为观察组和对
以锦葵茎皮为原料,采用盐酸、硫酸及酒石酸的稀释溶液为提取剂,结合正交试验进行果胶提取,对果胶组成进行红外光谱分析,并与桑皮果胶进行比较。采用不同质量分数的果胶溶液对
对消费者的保护是欧盟一体化进程中的一个重要方面,具有广泛和深远的影响:其一,欧盟的 消费者保护将各成员国原有水平不一的消费者消费活动的自主性、平等性、安全性,拓展提升到
针对三孔隙水导电模型的应用和储层精细评价的需要,提出了三孔隙组分(自由流体孔隙、微孔隙、粘土水)的数值解法,并根据塔里木盆地北部地区部分低阻层的储层物性特征,利用岩
<正>燕京啤酒(桂林漓泉)股份有限公司(简称"燕京漓泉")的前身桂林啤酒厂于1985年筹建、1987年底投产,1993年改制为桂林漓泉股份有限公司;2002年7月,燕京漓泉得以组建。在强强
背景胃癌在世界范围内一直是一个严重威胁人类健康的疾病,其发病率在所有恶性肿瘤中占第二位,死亡率占全部癌性致死性疾病的第二位。在消化道恶性肿瘤中占首位。虽然近年来内
分析各个驼峰调车场产生车辆溜放作业超速的各种原因和带来的安全隐患,提出了切实可行的各种措施,保证了调车作业特别是在冬季气候条件十分恶劣情况下的作业安全,可以作为其