面向并行启发式算法组的自动构建技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lhmsgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去十年中,得益于大规模并行计算架构的广泛部署,人们可利用的计算资源得到了极大提升。如今,在为复杂计算问题设计求解器时,设计并行求解机制以有效利用并行计算平台已变得越来越重要。然而,人工设计并行求解器仍然是一项艰巨的工作。作为一种新的并行求解器设计范式,面向并行启发式算法组的自动构建技术(Automatic Construction of Parallel Heuristic-algorithm Portfolios,简称ACPP)在近年来逐渐成为研究热点。ACPP技术基于一组训练问题样例和一个算法配置空间自动构建出包含多个成员算法的并行算法组(Parallel Algorithm Portfolios,简称PAP)。由于PAP构建过程完全自动化,因而人力成本得到大幅减低。此外,PAP在实际运行时各成员算法相互独立地并行运行,这使得PAP可以无缝部署在工作站、服务器以及云计算环境下。由于具有低人力成本、易部署等优点,ACPP技术具有良好的发展和应用前景。然而,目前学术界对于ACPP的研究尚处于早期阶段,仍存在不少痛点、盲点亟待解决。
  本文旨在从理论和方法层面上对ACPP技术进行进一步探索。首先,对于与ACPP密切相关的自动算法配置进行了研究。具体而言,系统地分析了自动算法配置中的性能评估部分,并得到以下主要结果:1)建立了在计算资源受限情况下的最佳性能估计器;2)对性能估计误差进行了研究,分别在算法配置空间有限和无限的情况下得到了估计误差上界。在多个问题域上的对比实验显示了提出的性能估计器相比于当前已有估计器具有更小的估计误差。此外,仿真结果也揭示了对于估计误差上界的分析结果的准确性。最后,根据以上主要结果,提出了若干对于自动算法配置工具的改进建议。
  其次,提出了一种新的基于样例分组的ACPP方法PCIT,其采用了一种逐步提升分组质量的策略,在初期使用完全均匀随机的方式对训练集进行分组,在后续过程中,PCIT将会收集大量自动算法配置工具运行产生的数据,用于建立模型以指导调整分组。经过数轮调整之后,PCIT基于最终样例分组输出PAP。在多个问题域上的实验结果表明,PCIT构造得到的PAP性能显著强于已有ACPP方法构造得到的PAP,甚至能媲美人类专家设计的最先进的并行求解器。
  现有ACPP方法都有一个基本假设,即给定的训练样例集可以充分代表目标使用场景,因此构造的高性能PAP可以自然地泛化到目标场景中。然而,这种假设在很多情况下并不成立。因此,提出了一种基于生成对抗框架的ACPP方法GAST。GAST将PAP构建和训练样例生成置于相互对抗的环境之中,后者总是试图生成对当前PAP具有挑战性的问题样例,而前者则寻求能更好地解决这些样例的新成员算法。分析表明,对最优化PAP泛化性能这一目标而言,GAST可以看作是对梯度下降这一过程的显式近似。在多个问题域上进行了仿真实验,结果表明当训练数据稀缺或有偏时,现有的ACPP方法得到的PAP在测试样例上将会表现出明显的性能退化现象。相比较而言,GAST构造的PAP在测试样例上仍然表现良好。
  虽然GAST可以克服数据稀缺或有偏的困难,但其缺乏一种有效的机制控制PAP规模。在实际中,这种缺陷可能导致GAST最终输出的PAP规模过大。因此,提出了一种基于协同演化框架的ACPP方法CEPS,其可以针对任意给定PAP进行改进,在保持规模不变的情况下提升其泛化性能。CEPS在进行PAP构建时会对其进行多次扰动以充分探索PAP空间,并依赖于测试来决定最终保留的PAP。此外,还提出了一种用于初始化PAP的ACPP方法GIP,其使用了贪心策略从性能已知的算法配置集合中选择算法配置以构建PAP。将GIP+CEPS应用到了实际物流中的大规模优化问题上。测试结果表明,CEPS可以大幅提升给定PAP的泛化性能,GIP+CEPS构建的PAP显著优于现有ACPP方法构建的PAP,并在该问题上拥有当前最好的求解性能。进一步在现有基准测试集上测试了GIP+CEPS构造的PAP,结果表明在不需要重训练的前提下,该PAP可以顺利泛化到基准测试集之上,且在其中10个测试样例上找到了新的最好的解。
其他文献
随着人类社会发展对能源需求的不断增加,化石能源短缺的问题逐渐引起了人们的重视。可再生能源以分布式电源的形式规模化地接入到配电网中,改变了配电网的拓扑和潮流。在配电网发生故障后,对配电网的安全可靠运行提出了新的要求。  本文通过调研分析国内外现行配电网故障区段定位方法,基于遗传算法以及粒子群算法,提出了一种新的含分布式电源的配电网故障定位方法,论文主要工作如下:  首先给出了分布式电源的简介,包括风
学位
该论文主要研究配电网规划,包括配网网架规划和配网重构,以及为之服务的负荷预测.配网网架规划又包括水平年网架规划和多阶段网架规划.对负荷预测,主要介绍了负荷预测的常用方法和各种方法的优缺点,并提出改进的人工神经元网络法用于负荷预测,以及算法实现和算例分析.对配网网架规划和配网重构,在综合各种方法的优缺点的基础上,提出了改进的多种群遗传算法用于配网网架规划和配网重构.并针对配网的特殊约束条件,提出了行
近年来,随着机器学习技术的兴起尤其是深度学习技术的蓬勃发展,人类社会迎来了人工智能的黄金时代。在新时代背景下,大量卫生保健数据加速创建,传统医疗正逐渐向智能模式转变。如何从海量电子病历中获得有价值的医学信息,是智慧医疗发展的需求,也是目前构建智慧医疗体系所面临的重大挑战。  相关实验研究表明,大量的准确标注的训练样本是使用机器学习方法获得准确率高、泛化性能好的模型的基础。然而,在医疗领域,对于某些
学位
随着各种数据密集型应用(如智能终端、多媒体、自主交通和虚拟现实)的兴起,第五代(the Fifth Generation,5G)移动通信系统的主要需求是增加容量、提高数据速率、减少延迟和改进服务质量。针对上述需求,迎接未来的挑战,一些关键的技术被提出,如非正交多址技术、物理层传输技术、大规模天线和毫米波。其中,速率分割多址技术(Rate Splitting Multiple Access,RSMA
多智能体路径规划问题是为多个智能体在地图上寻找它们从各自不同的起始位置到目标位置的无冲突路径集合的问题,属于NP-hard问题。该问题作为人工智能领域的重要问题之一,在物流仓储、交通控制、机器人等领域中也有非常多的应用。在研究该问题的历程中,产生了次维扩展、代价增长树路径搜索和基于冲突的路径搜索等求解方法。次维扩展作为其中表现最好的方法之一,是一种具备完整性和最优性的多智能体路径规划问题求解框架。
学位
网络在生活和生产中无处不在,例如社交网络,而网络表示学习(也称网络嵌入)是一种对网络型数据非常有效的处理方法,其旨在为网络中的每个节点都学习一个低维的向量表示。在现实世界中许多网络都是动态的不断变化的,然而大部分现有的算法只能对静态的网络取得较好的效果。动态网络通常可以分成两类:一种是随着时间推移其拓扑图的节点和边会增加或者减少;第二类则是网络的边会包含时间信息,如电话网络。动态网络表示学习算法大
学位
近年来,基于LSM-tree的键值(key-value)存储系统在数据存储领域发挥着重要作用,作为后端存储引擎被广泛部署在数据密集型应用场景下。然而,LSM-tree层次化的、高度有序的数据组织结构需要通过大量的数据合并操作维护,引起了严重的写放大问题。最近的研究工作针对系统架构提出了几类优化方案,虽然缓解了写放大问题,但是不同程度地牺牲了查询性能和空间利用率。为了获得均衡的高性能表现,本文通过分
随着现代城市的迅速发展,大型城市综合体内部及周边巨大的人流量为公共安全带来了严峻的挑战。为了应对这一挑战,需要针对性的人流管理措施,而人流统计和预测则是人流管理的数据基础。  由于人流在时间和空间两个维度上的不确定性,以及缺失数据的存在,精确的人流预测一直是一个具有极高挑战性的任务。近年,已有一些针对城市范围的人流密度预测算法,但这些模型均没有考虑建筑物内部,如城市综合体内的人流模式。  本论文的
随着智能移动设备的广泛使用,一种新的众包形式-空间众包应运而生。空间众包要求工作者到达指定任务位置才能执行任务。本文提出了一种新的空间众包形式,称为时间连续型空间众包。时间连续型空间众包与以往空间众包的不同在于,时间连续型空间众包任务需要长时间的任务周期才能完成任务。时间连续型空间众包在实际生活中存在广泛应用,包括环境监测、交通检测等。  由于任务预算和可分配工作者数量有限,时间连续型空间众包任务
近年来,蓬勃发展的电子信息和网络技术给现代人们的各种日常生活工作方式带来了深刻的社会变革,人们愈发地倾向于以直观的图像和视频为媒介,来理解外部世界和表达自身。这种需求无疑催生了社交媒体平台的爆发式增长,海量的视频数据由这些平台得到分享和传播,并不断涌入我们的生活。在这种情况下,如何对海量的视频数据进行浓缩,抽取出其中的关键信息,从而帮助用户更快更准确地获取自己需要的视频内容,是当今计算机技术领域,