PPS:面向海量粒子计算的数据管理平台

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:cjn2503687
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粒子计算越来越深入的应用于化工、材料、生物等重大挑战性领域。随着粒子计算规模的增大,海量粒子数据的处理和存储遇到越来越大的挑战,如粒子数据读写的查找开销大、小磁盘I/O性能差等问题。为了提供方便的粒子数据管理,提高海量粒子数据的访问效率,本文设计并实现了针对粒子计算模型的粒子数据管理平台―PPS。该平台通过粒子网格划分的方法,实现了对海量粒子数据的有效组织和管理,并充分利用了粒子计算的读/写请求并发度高、读请求局部性好等特点,降低粒子数据访问的开销,提高粒子计算程序的磁盘I/O性能。   本文的主要工作和贡献有:   (1)设计了一种高效的粒子数据分布式排序系统―ParSort。在粒子计算过程中,粒子集合是海量的、杂乱的。为了便于粒子数据的存储管理和后处理,粒子数据集的磁盘映像必须保持物理意义顺序的排列。ParSort按照初始粒子数据集中粒子网格的划分关系,对计算进程上待写的粒子数据进行分布式排序,然后再写到磁盘,从而保证了这种顺序一致性。ParSort的分布式排序过程将排序、数据的网络传输和写磁盘操作通过流水线并行起来,聚合将要写磁盘的粒子数据,极大的降低了分布式排序带来的额外开销。在19个曙光刀片服务器的测试平台上,ParSort的粒子数据排序写性能可达1130MB/s。   (2)设计了一种高效的粒子数据聚合读系统―ParDist。粒子数据的粒度一般为几十到上千字节。粒子数据读请求中的粒子集合是无组织的、动态的。基于粒子数据读请求的粒子网格局部性和高并发度,ParDist采用了两阶段I/O和数据筛选的设计思想,将海量的小粒子数据请求聚合成对粒子网格的请求,极大的提高了磁盘数据读的性能,进而提升了粒子数据读的吞吐量。评测结果表明,ParDist的粒子数据读性能可达1280MB/s。   (3)实现了面向粒子模拟应用的海量粒子数据管理平台―PPS,并对其进行了分析和评测。PPS平台融合了分布式排序系统和粒子数据聚合读系统,向粒子模拟应用提供高效的粒子数据读/写服务,高可用的分布式粒子数据存储服务,以及方便的粒子数据组织管理。评测结果表明,PPS管理平台具有很好的横向、纵向可扩展性,提供的粒子数据读、写性能可分别达到底层文件系统顺序读、写性能的70%。
其他文献
随着全球信息科技及互联网技术的发展,教育领域与互联网信息技术结合的紧密程度越来越大,特别是2012年兴起的MOOC(Massive Open Online Course),更是带动了全球在线网络教育平台
人体运动跟踪技术是人机交互、虚拟现实领域的重要研究内容之一。随着微机电系统(MEMS:MicroElectroMechanicalSystem)传感器技术的发展,价格低、体积小、重量轻、精度高的新
随着网络规模的快速增长,以视频会议、视频点播、e-Science海量数据传输等Qos敏感的实时业务和多媒体应用为代表的网络应用不断增加,而庞大的网络结构也日趋复杂和多样,如何通过
曙光6000龙芯分区采用HPP体系结构,具有节点内异构多处理器、处理单元间耦合度适中以及非对称设备共享的体系结构特性。高性能计算机研究中心系统软件组针对上述特性设计并实
伴随着集成电路制作技术按照摩尔定律发展,现代现场可编程门阵列(FPGA)正在变得越来越复杂,传统的寄存器传输级(RTL)设计技术越来越不适应大容量FPGA开发的需要。由于基于Sys
网络容灾与网络可生存性是网络安全的基本问题,也是下一代网络不可回避的关键问题。网络上最重要最宝贵的资源是数据和信息,其次才是硬件设备及其驱动软件。因此网络上承载的数
随着控制、计算机、通信和网络技术的不断发展,开放式体系结构、网络化、高可靠性、复合化、多轴联动化成为数控系统的发展趋势。Ether CAT以其开放性好、拓扑结构灵活、可靠
模式识别是人工智能学科中一个重要的研究领域,运用数据挖掘方法解决研究对象的模式识别问题,称为模式挖掘。中医在冠心病诊断和治疗方面有着完善的理论基础和成熟的方法体系
行人检测在智能交通、视频监控、多媒体检索等领域具有重要的应用价值。行人检测的相关方法与关键技术已经成为计算机视觉领域研究热点。然而,行人的多姿态、多尺度、局部遮挡
在IEEE802.11无线局域网中,各AP负载经常处于不均衡状态,这将导致宝贵的无线资源不能得到充分利用、网络吞吐量降低等弊端。目前IEEE802.11标准没有对负载均衡问题进行规定和