基于分布式深度学习的商品图像分类算法研究与实现

来源 :沈阳理工大学 | 被引量 : 2次 | 上传用户:sinolee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网+的大环境下,电子商务迅猛发展,在线购物逐渐成为人们购物的主要渠道之一。如何对各大电商平台超过Pb级规模的商品图象进行快速,准确规范的自动分类管理,提高电子商务效率,成为一项极需解决问题。本文以商品图像分类为背景,选取基于Spark集群的分布式深度学习工具CaffeOnSpark作为平台,对基于分布式深度学习的图像分类算法进行了研究。CaffeOnSpark为保证模型分类准确率,牺牲效率换取精度,采用了同步式随机梯度下降优化算法,而同步式算法会由于参数同步要等待计算最慢的节点,导致木桶效应降低训练效率,同时在与参数服务器同步参数时存在通信冲突问题。异步式随机梯度下降算法能解决木桶效应问题,在其他分布式深度学习平台中广泛使用,但其仍然存在通信冲突,浪费计算时间,而且由于梯度值过时问题,会导致模型收敛速率下降,达不到原有的加速效果,最终得到的模型准确率比同步式算法低。本文首先针对CaffeOnSpark同步式算法的缺点,设计实现了基于异步随机梯度下降算法的CaffeOn Spark结构。通过实现异步式训练,解决了CaffeOnSpark进行分布式深度学习时的木桶效应问题,提高其模型训练效率。其次,针对异步式算法的通信冲突问题,提出一种随机数据分片策略,缓解通信冲突,进一步加快训练速率;并针对梯度值过时问题,采用弱同步策略,平衡训练效率和准确率。通过实验验证基于改进异步算法的CaffeOn Spark比同步式算法能在保证准确率大致相同的情况下,提高分布式训练效率。最后,本文设计PI100商品图像分类模型,使用改进的分布式深度学习算法进行训练,并与CaffeOn Spark平台作对比,在获得相同准确率情况下大幅提升效率。针对训练数据集小,训练得到的模型准确率低和过拟合问题,使用迁移学习的方法在小商品数据集上取得更高的准确率和泛化能力,实现商品图像分类任务。
其他文献
电信诈骗作为一种新型犯罪,近年来呈集团化、团伙化运作模式,涉案金额重大、团伙分工复杂,为司法机关打击犯罪带来难题。文章立足于实践中电信诈骗共同犯罪平行与渐进两种分
对企业经营状况进行监测和评价,是当前经济学界研究的一个重要课题,它涉及到统计、财务和业务核算,文章依据统一性、科学性、综合性、可操作性的设计原则,从反映企业经营的风险性
城市首位度是分析首位城市(中心城区)的相对重要性的指标之一,是衡量城市规模分布状况的一种常用指标,在一定程度上代表了城镇体系中的城市发展要素在最大城市的集中程度。19
简要介绍水力旋流器在某铀水冶厂细砂洗涤分级工序中的应用现状,从理论上浅析该铀水冶厂细砂洗涤分级工艺中目前存在的技术问题,结合实际生产提出改进意见和措施,从而满足生
传统便携设备的无线收发终端通常由五部分组成:滤波器、放大器、混频器、本地振荡器、DAC(或ADC)。这样分立的五个部分往往造成整体设计的面积相对较大,功耗较高。而电池的发
试验以感官指标、挥发性盐基氮、pH和菌落总数为质量指标,研究在0℃的冷藏条件下,不同浓度的番石榴多酚溶液对金鲳鱼鱼糜的保鲜效果。结果显示:番石榴多酚能够有效降低金鲳鱼
本文主要应用杨等人所提出的分子形貌理论,首先对最简单的碱土金属Be2二聚体进行了系统的研究,得到了Be2的内禀特征参数,并在Be2二聚体单重态和三重态下,探究了其能量、电离
<正>近几年,由"将军饮马问题"派生的最值问题,屡见不鲜,但此类题中的动点多数在直线上运动,若将动点设置在有规则的曲线上运动,又该如何转化呢?一般情况下,人们常运用曲线的
实践证明,在畜牧业中抗生素作为生长促进剂已取得了良好的效果,在畜禽类疫病的防治中取得了卓越的成效。抗生素工业的兴起极大地促进了养殖业的发展。但是,抗生素的大量长期
本研究建立了一种基于免疫胶体金技术的链霉素快速检测方法。该方法检测灵敏度10ng·ml-(101ppb),蜂蜜样本检出限是40ng·ml-(40ppb),单个样本检测时间为5~10min。所研制试纸