一种面向深度学习平台的存储中间层的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:btly540205390
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工神经网络算法的成熟以及机器计算能力的提升,深度学习技术已经在众多领域都取得了重大突破。算法的成熟离不开大数据的支持,但是海量数据也给深度学习平台的存储系统提出了巨大的挑战。目前常用的存储系统无法适应深度学习平台中复杂的应用场景,使得I/O成为制约深度学习平台发展的瓶颈。针对以上问题,本文提出了一种面向深度学习平台的存储中间层(Storage Middle Layer for Deep Learning Platform,SML-DLP)的方案。本方案底层使用对象存储系统作为数据的可靠存储,因为深度学习平台处理的大多是扁平的非结构化数据,对象存储比文件系统更有优势。传统的文件系统在存储海量数据时消耗了大量的inode,磁盘利用率大大降低。SML-DLP在设计上简化元数据结构,尽力减少文件的元数据量,保证访问请求可以在内存中执行所有的元数据查询,让系统腾出更多的性能来读取真实的数据,提升系统的吞吐量。SML-DLP从随机处理层、数据缓存层和数据处理层三个层次来满足深度学习平台功能性需求和性能需求。针对功能性需求,随机处理层将训练数据集按照文件列表做随机化处理保证数据的随机性;针对性能需求,在数据写入时将小文件合并为一个数据块写入,在读取时分别从批量读取和数据缓存两个方面优化读取性能。本文实现了SML-DLP原型系统,并对系统进行了对比测试。测试结果表明,在数据写入时,SML-DLP的性能是原生Ceph的3~4倍;在数据读取时,SML-DLP的性能可以达到Memcached全命中时的水平。接入训练系统时,SML-DLP在延时方面的表现接近Memcached的水平,远远高于原生Ceph系统。
其他文献
国产数控机床加工质量方面已经逐步达到国际先进水平,但其在人机性能方面与国外部分机床相比仍有些不足。本文从数控机床人机学设计、人机学评价和人机学指标研究方法入手,结
大力开发电解水制氢产氧工艺是解决清洁能源问题的有效策略。开发低成本的电催化剂用来实现高效催化析氢(HER)和析氧(OER)反应,对于大规模水电解制氢产氧至关重要。过渡族金属氢氧化物成本低廉,环境友好,然而,由于金属氢氧化物本质上较差的电子传导性以及催化反应过程中不合适的中间体吸附能,使得它们在HER催化领域表现不佳,同时其OER催化活性也有待提高。如何同时提高过渡族金属氧化物的HER以及OER催化
近年来,纠删码内存方案因其响应延时低、空间利用率高等优点,得到了越来越多研究者的关注。现有纠删码内存研究主要针对只读负载,侧重于失效恢复和负载均衡方面,甚少涉及数据
混沌是一种类似随机运动的动力学行为。随着对混沌理论的深入研究,将混沌分型现象同分数阶微积分理论相结合的分数阶混沌系统打破了整数阶混沌系统的局限性,具有更为突出的隐
党的十八大明确提出大力推进生态文明建设,努力建设美丽中国,实现中华民族永续发展,因此,精准评价苗木质量成为了推进生态文明建设、现代林业建设的重要保障。目前苗木质量的
随着中国经济的繁荣和全球化趋势的加快,建筑工程领域的发展已成为国民经济发展的重要组成部分。当今社会科学技术日新月异,工程建设在我国发展迅猛。翻译事业的兴盛促进了国
随着信息技术的迅猛发展和大数据时代的到来,扮演着重要角色的数据中心在数量上和规模上都出现了大幅度的增长。在加快推进全球信息化的同时,数据中心所面临的能源消耗过大、
信用是一个具有历史渊源的命题,长期以来,各方对于信用的研究较为广泛。近几年,从事理论研究的人员对于个人征信、企业征信的研究相对比较多,但是对于作为以农户为信息主体的
设计固化(design fixation)是指在设计过程中对一组想法或概念的盲目遵从,主要表现为不同设计方案中反复出现某些元素或特征。如今社会各界越来越重视创新设计,而设计固化正
瓦记录技术能够提升磁盘的存储密度,被广泛应用于海量数据存储系统中。以键值(Key-Value,K-V)系统为代表的非关系型数据库,能够为大数据应用提供高性能,高扩展性,高灵活性的