论文部分内容阅读
传统的串行仿真技术无法有效的解决大规模计算机系统仿真的性能与资源开销问题,并行仿真技术已成为大规模计算机系统仿真的必然选择。然而节点间的同步极大的阻碍了仿真器达到理想性能,不当的同步通常会造成并行仿真器的性能下降一至两个数量级。而且同步的消极影响会随着仿真规模的增加而扩大,因此同步是大规模并行仿真器取得较高性能的关键所在。同步问题的解决必须考虑仿真的需求约束。在时钟精确仿真环境中同步机制需要在严格保证节点间时序关系的条件约束下挖掘仿真器的并行性;而非时钟精确仿真则允许因果关系错误存在,同步机制可以适当的突破限制、放大前瞻量,但是由此带来的精确度损失又成为并行仿真技术必须面临的另一项挑战。本文针对时钟精确与非时钟精确两类仿真需求,面向多核处理器与数据中心系统两类典型的大规模计算机系统,在分析总结了当前体系结构并行仿真技术存在的性能与精确度问题的基础上给出整体性的解决方案,并围绕关键的同步问题深入开展研究工作,提出了精确度与性能达到较优平衡的多种同步机制。本文的研究内容包括以下四个方面:1.多核处理器时钟精确并行仿真技术的研究。面向多核处理器并行仿真设计实现了一种能够保证仿真器时钟精确性的悬挂路障同步机制以及针对多线程环境的多种性能优化方法。悬挂路障同步机制通过提前设置的悬挂路障保证逻辑处理器能够及时接收到一些零延迟事件,在可忽略性能损失的情况下提高了传统保守同步协议的能力;多种性能优化方法包括针对共享存储模拟问题的存储访问Hash加锁方法,针对高速缓存假共享问题的私有存储变量、局部动态存储分配方法,针对线程间通信问题的无锁化队列通信方法。实验结果表明采用了上述同步机制及优化方法的多核处理器并行仿真器PCASim在17条宿主线程规模时相对串行仿真达到了平均8.66倍的加速比。2.众核处理器时钟精确并行仿真技术的研究。针对众核处理器时钟精确并行仿真时性能受同步限制的问题,提出一种充分挖掘仿真器并行性的两级同步机制。两级同步机制将仿真器的处理器核心模型与下级高速缓存与片上路由器等组件模型分割成两种模块,利用三种与对象系统存储访问过程紧密结合的路障保证两种模块间时序关系的一致性,使得仿真性能提高的同时时钟精确性不被破坏。理论分析指出,两级同步在性能上介于相同前瞻量Quantum同步的1至2倍之间,而且两级同步保持了存储层次及片上网络足够的细节。实验结果表明实现了两级同步的众核处理器并行仿真器MCASim相对串行仿真的平均加速比在使用16线程时达15.2倍,32线程时达22.0倍,亦证实了两级同步与Quantum同步的性能关系。3.放松同步技术的研究。针对放松同步扩大同步周期时长后带来的精确度大幅下降问题,通过分析放松同步中因果关系错误产生的主导因素,指出将所有节点调节成一致的速度后能够降低因果关系错误量,据此提出一种基于墙钟时间的高效非时钟精确同步技术。墙钟同步在松弛同步周期内新增一层同步逻辑时间与墙钟时间的协议,把仿真器所有执行实体调制出细粒度一致的速度,在获得了松弛同步性能收益的同时提高了仿真精确度。进而分析了真实仿真环境对墙钟同步的多种影响因素,给出了墙钟同步的适用条件。在众核处理器并行仿真器中实现了墙钟同步,实验结果表明,在精确度接近的条件下,墙钟同步与同期的Slack自适应同步技术相比,16条线程下平均提升20.3%的性能,32条线程下平均提升26.7%的性能。4.数据中心仿真技术的研究。基于全系统仿真技术与墙钟同步技术设计实现了一款面向数据中心的高效体系结构并行仿真器。仿真器支持包括10设备的各类主要组件的高精度建模,能够运行起完整的数据中心系统与应用程序;拆分了网络模型使其亦支持并行运行,所有节点可灵活部署,有效避免了性能热点的形成。通过分析数据中心仿真器的特性,指出其目标系统链路延迟与仿真速度的比例关系有利于墙钟同步机制降低逻辑时钟偏差,为同步周期时长拓宽了上升空间。实验表明墙钟同步控制下的数据中心并行仿真器具有优异的性能表现,在32节点的配置下相对严格路障同步平均速度提升达5.1倍,相对近期的自适应路障同步亦平均提升了49.8%。