面向“神威·太湖之光”的分子对接应用移植与优化技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:lvsby2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分子对接是在药物发现过程中一种被广泛使用的计算方法。它通过计算机模拟的方式在受体蛋白质的结合位点中对类药小分子进行姿态定位、评分、排名,以选择出优先用于后续实验测试的化合物,这一过筛选过程将极大地提高后续实验的成功率从而减少时间和经济成本,因此计算机模拟分子对接在药物设计与研发流程中作用重大。在新药研发过程中,对某一特定受体可能需要在数十亿类药小分子中搜索较优的小分子及其与受体蛋白结合的姿态。因此,大规模虚拟药物筛选中的模拟分子对接过程是一个关键但又十分耗时的过程。UCSF DOCK3.7是使用最广泛的分子对接应用之一。本文以UCSF DOCK3.7为例在“神威·太湖之光”超级计算机上对其进行了深入且系统全面的移植、重构与优化,使其能够在合理的时间内高效处理数十亿乃至上百亿小分子,加速药物筛选流程。首先,本文构建了一种适合于大规模分子筛选的高性能分子数据库。为提高数据扩展性,本文设计了新的数据组织方式、存储模式和压缩方案。本文提出了一种新的二进制文件格式,以取代原有配体存储使用的mol2db2文件格式,并采用xzip方式替换原有的gzip方式来压缩配体文件。实验表明,新的文件格式可以显著缩短文件I/O时间,而xzip的压缩方式可以节省大量存储空间,有利于降低超大规模分子筛选时的I/O与初始化瓶颈,降低数据存储对空间的需求从而降低数据库存储成本。其次,本文给出了能充分利用申威国产异构处理器算力的并行模式与算法优化实现。对此,本文采用了“生产者-消费者”模式的主从协同策略,该策略可以将文件I/O和初始化阶段与从核计算相互掩盖,可以达到良好的均衡负载实现较高的性能;本文还给出了适合分子对接算法的高效访存模式设计与实现:采用融合计算核心和循环的策略,以及压缩内存使用的方法,以将数据存储在可以快速访问的从核本地设备存储器(LDM)中,以便高效地对配体小分子与受体结合时可能的姿态进行评分;本文还提出了许多基于申威体系结构的优化,例如实现异步数据传输和计算向量化,以充分利用SW26010处理器性能;本文还对分子对接算法进行了逻辑优化与实现。对于确定配体与受体所有可能的结合姿态部分,本文提出了一种优化算法来避免产生相似的冗余结合姿态,在不损失任何精度和正确性的情况下,降低算法复杂度,从根本上减少计算量和访存总量。对评分部分的算法进行了优化实现,减少访存总量与数据交互量。算法的优化使得程序性能获得了大幅提升。最后,本文设计实现了面向超大规模拓展性的高可扩展通用分布式并行框架。设计了基于双层调度策略任务分配和调度框架,极大的降低了 MPI通信瓶颈,充分利用超算平台的聚合I/O带宽,使优化后的应用可以高效地在下一代神威超级计算机的数十万个异构核心上进行扩展。实验表明,通过使用本文所提出的各项优化策略可以在SW26010单核组上实现167倍的加速比。与Intel(R)Core(TM)i9-10900K CPU的单核心相比,优化后的程序在SW26010单核组上实现了 13倍的加速比。在新一代神威超级计算机上,优化后的SW-DOCK可以以90%以上的拓展效率高效扩展到近20万个核心上,实现了高性能高可扩展的超大规模分子对接算法。
其他文献
由于天气和人为等因素的影响,雾霾现象变得更普遍并严重影响着人们的生活。雾霾天气会使图像采集设备获取的图像质量下降,从而影响无人驾驶等视觉计算系统的安全性和准确性。不同浓度的雾霾给图像上的目标检测和图像分割等深度学习领域的计算机视觉任务带来不同程度的困难,因此通过训练使深度学习模型能够学习到图像中不同程度的雾霾特征显得尤为重要。现阶段的雾霾分类方式包括两类。一类方法是基于传统数值统计的雾霾分类,此类
学位
基于消费级深度相机的实时三维重建技术包括深度相机逐帧捕捉数据、相机姿态实时估计、融合体模型提取面模型、前景分割等步骤,在重建过程中,往往会出现噪声、冗余和帧间不匹配等问题。论文详细描述了从深度相机捕捉数据到最终三维模型的建立过程中,对重建三维模型精度与质量进行提升的三种方式,分别是帧块的自适应处理,TSDF的精细化处理以及基于平面检测的前景分割。在深度相机的拍摄过程中,由于相机剧烈抖动或光线变化等
学位
推荐系统在人们的生产生活中应用广泛,在信息爆炸时代对于信息的过滤、便民服务等方面发挥了重要作用。序列推荐是推荐系统的重要领域,被广泛应用于电影、电商、短视频等行业,其主要任务是通过分析用户与项目之间的交互序列,利用序列之间的依赖性来捕获用户最近期的偏好,从而预测用户下一次可能交互的项目。推荐系统成功的关键是用户偏好和项目特征的准确表示,许多广泛应用的推荐模型都是基于欧几里得空间(即欧氏空间)的表示
学位
大数据时代,隐私泄漏问题成为了社会发展的隐患。加强隐私保护,既需要公众提高对个人隐私的保护意识,也需要强有力的隐私保护技术予以支撑。可搜索加密(Searchable Symmetric Encryption,SSE)作为一种数据利用与共享的重要手段,既能在查询过程中保护数据所有者的数据隐私,又能保留数据的可查询性质,具有非常重要的研究意义。作为实现密文检索的重要工具,可搜索加密的基本工作过程是,给
学位
随着科技以及电子设备的日益发展,在线学习逐渐成为一种流行且常见的教育方式。在线学习具有资源多元化、易于使用、受众面广泛等优点,学习者可以不受时间和地域限制地进行学习,然而其缺少了传统教育所具有的实时的反馈机制。实时且准确地对学习者的在线学习过程中的学习参与度进行评估,不仅能够给予学习者足够的监督反馈使其保持良好的学习状态,而且能够给予授课者适时的教学反馈使其有效提高教学质量,对于在线教育的发展具有
学位
近年来,继人脸识别、指纹识别、声音识别、动作识别等生物识别技术之后,基于心电信号(Electrocardiogram,ECG)的身份识别(以下简称心电身份识别)凭借其活体检测、隐私性高、安全性突出等独特优势,已成为一种被广泛关注的新身份识别技术。目前,心电信号虽已成功应用于身份识别,但其识别性能远不如其他生物特征技术。心电信号容易受到各种干扰噪声的影响,稳定性比较差,而且具有高区分性的特征并未得到
学位
股票预测是指对股票具有深刻了解的研究人员根据股票行情的发展进行的对未来股票趋势方向以及涨跌程度的预测行为。然而,由于股票市场的高度波动性和非平稳性,极大增加了股票预测的难度。新闻媒体信息的爆炸式增长以及自然语言处理和文本挖掘技术的不断发展为股票预测的进一步研究提供了新思路,使研究者能够从众多的新闻媒体信息中揭示市场趋势和波动性。在现有的基于新闻文本的股票预测方法中,大多数方法主要以单一新闻信息(如
学位
大学教育中的语文教育是多方面、多样性的综合体,素质教育也是培养大学生的重要内容,不仅要把思政融入到教学中,更要突出表现大学生自身的特点。大学语文课程是一门重要的基础性学科,是以围绕人文教育开展的核心课程,充分利用语文课堂这一途径,发挥学科特长,将思政教育有效结合,推动大学语文教学改革,以达到以德树人的根本目标。课程思政教育下的大学语文课堂要获得良好的学习效果,需要教师不断地提高自身能力,还需要学校
会议
随着物联网的不断发展,物联网设备的数量和种类正在急速增加。物联网设备应用十分广泛,有一部分物联网设备无法使用传统的电池或电源进行供电,因此需要用到能量收集技术。能量收集就是通过收集物联网设备周围的微小能量(例如太阳能、风能等),从而达到维持自身系统对电能的需求。能量收集可以为不方便使用传统供电方式的物联网设备供电,保证物联网设备的运行。但是,由于能量收集设备的能量输出通常很弱且不稳定,因此物联网设
学位
标签割问题是定义在标签图上的一类经典的组合优化问题。标签图由顶点集、边集、标签集以及边集到标签集的映射组成。在算法研究中,标签割问题是一般图上对应优化问题的推广;在实际应用中,标签割问题被用来衡量共享风险链路网络的健壮性等。最小s-t标签割问题是标签割问题中的基本问题,其目标是在标签图上求一个最小标签子集,使得在图上删除该子集对应的边集后,s点和t点不再连通。最小s-t标签割问题,一方面,是最小s
学位