基于强化学习的进化算法自适应参数控制和算子选择策略研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:highlove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进化算法在最近受到了广泛的关注,成为优化领域的研究热点,而且在解决复杂优化问题上表现出了良好的性能。然而进化算法的性能高度依赖使用的交叉和变异算子,因此算子的选择和对应参数的设置成为影响算法性能的关键因素。但是算子的效果与问题特性有关,复杂优化问题大多具有多峰且不连续的景观信息,因此即使是解决同一问题,由于进化算法的随机性,每次运行得到的种群优化路径也是不同的,合适的算子和对应的最佳参数也会不同。为了解决这个问题,本文在算子参数自适应和算子选择方面进行了探索和研究,提出了基于强化学习的自适应参数控制和算子选择算法,主要研究内容如下:(1)由于算子的性能受参数影响很大,为了给算子推荐合适的参数,本文提出了一种基于深度强化学习的自适应参数控制方法DE-A2C。它分别建立了策略网络和评价网络,其中策略网络根据当前种群状态给出算子的相关参数,进化算法框架接收算子参数生成新的子代并更新种群;评价网络负责估计当前状态的累计回报和下一个状态的期望回报,评价策略网络生成参数的效果。最后使用基于策略的强化学习方法Actor-Critic更新两个网络。对于策略网络而言,其更新目标是最大化生成参数的累计回报;对于评价网络而言,其更新目标是最小化累计回报的估计误差。我们在CEC2020测试问题上验证了算法的性能,结果表明DE-A2C算法同固定参数的策略相比显著提高了性能,相比于其它参数控制算法也更有优势。(2)虽然参数可以影响算子的性能,然而不同算子之间的差距很大,单个算子不可能适用于所有问题。为了同时利用多个算子的优点,平衡进化过程中收敛性和分布性,更有效地利用计算资源。本文提出了一种基于深度强化学习的算子选择算法MOEA/D-DQN。它利用一个神经网络估计当前个体在应用每个算子后可以获得的累计适应度提高,适应度越高的算子有更大的概率选中,之后利用轮盘赌的方法确定要应用的算子。我们在4个测试集和神经网络训练问题上将MOEA/D-DQN算法与4种多目标优化算法和2种算子选择算法进行了比较,实验结果表明MOEA/D-DQN算法相比其它算法具有明显的优势。
其他文献
在如今大数据互联网时代,网络上每天都会出现大量的短文本,对这些海量短文本信息的管理成为了一个难点。短文本分类作为自然语言处理中的一项基本任务,如何准确高效的将短文本分类,从而更好地服务自然语言其他任务,一直以来都是研究的重点方向。最近,图卷积网络技术在各领域兴起并在各领域获得了不错的效果,例如在网络分析、智能推荐和生物化学领域等。图卷积网络是一种简单且高效的模型,它能够很好地捕获节点与节点之间的结
学位
单药治疗疾病存在治疗效果差,长期服用产生耐药性和副作用等缺点,故药物组合被研究用于克服单药治疗的缺点。早期的药物组合通过医学实验技术或者临床实践获取,耗时耗力效率低,计算机技术的发展和生物信息的积累促使了计算机辅助药物研究的发展。现有研究中对药物组合的研究缺乏对关键基因的考虑且存在组合爆炸的问题,且现有疾病样本数据尤其是罕见疾病的数据不完善,面向小样本数据的疾病关键基因挖掘方法也是必要的。故本文首
学位
随着国家经济的发展和交通基础设施的不断完善,近年来高速交通服务业迎来了巨大发展。为了满足高速交通用户的出行需求,交通服务的智能化发展是一种必然趋势。面向交通的智能对话系统应用于全终端高速交通平台,不仅能够解析客户咨询的业务意图并给出相应回复,而且能够通过一连串的对话指导用户达成某一项任务。近年来,基于深度学习的多轮对话系统快速发展,特别是研究者已经设计出了基于预训练语言模型的多样化对话系统,催生了
学位
文本分类在自然语言处理中是一个重要且经典的问题,它是指一个文本实例对应一个关联的标签。随着数据的爆炸性增长,迫切需要对文本数据进行分类处理,以挖掘其潜在的价值,这在学术界引起了广泛的研究。目前,在深度学习中,基于图神经网络的文本分类已成为重点的研究内容。其中,图卷积网络在文本分类中取得了优异的成绩,为了缩短图卷积网络的训练时间,一些研究人员提出了线性图卷积网络来优化它。但这些图卷积模型将每一层的消
学位
目标检测,作为计算机视觉领域的一个重要研究分支,旨在用边界框表示目标的位置,并给出目标相应的类别。现阶段,基于水平边界框表示的目标检测器在自然场景中的轴对齐图像上取得了优异的检测性能。但是对于遥感图像中存在的目标任意方向、密集排列、背景杂乱、尺寸小、长宽比高等现象,使用水平边界框表示目标会出现包含过多背景信息以及前景背景信息混淆的现象。这两种现象皆会降低检测器的精度。由此可见,如何设置合适的表示形
学位
随着云计算和机器学习技术的兴起,数据采集和数据挖掘变得更加普遍,决策树算法也成为了数据挖掘中最常见的分类方法之一,广泛应用在医疗诊断、信用风险评估等领域。然而在决策树训练的过程中,一些数据的收集会涉及到人们的隐私信息,这些隐私数据的泄露可能会直接冲击个人利益,甚至触犯法律条款。如何在决策树训练的过程中有效地保护用户隐私成为了近年来非常有意义的研究内容。目前许多传统的隐私保护决策树训练方案是通过参与
学位
图像分类是计算机视觉领域的重要问题,有着各种各样的应用。在图像分类领域,这些年涌现了许多算法。其中,核方法有着以下优势:1)可以将低维样本特征映射到高维空间,使原本线性不可分的特征在高维空间中线性可分;2)避免向量在高维空间中的复杂内积计算;3)有效减少了计算复杂度的优势。因此,本文围绕核方法,给出了两种图像分类方法。主要工作总结如下:(1)高斯过程分类是机器学习领域中的一类有监督模型,而其中的协
学位
自2003年来,韩国共实施了四次“英才教育振兴综合计划”,不仅为韩国的科技发展贡献了大量创新型人才,也使韩国逐步建立了相对完善的英才教育体系。该计划实施过程中遇到的问题及获得的经验对我国开展超常儿童教育具有一定的借鉴意义。本文对韩国英才教育的内涵、历史和政策演变、发展成效及面临的挑战等方面进行了系统介绍和分析,提出了对我国开展超常儿童教育的启示。
期刊
近年来,深度学习的发展使得多项计算机视觉任务达到了难以想象的水平。但是神经网络性能增强的代价是日益增加的网络计算成本和内存成本。这些代价严重限制了神经网络在一些移动平台上的部署和应用。因此,对神经网络进行模型压缩和加速逐渐成为一个亟待解决的问题。当前主流的模型压缩和加速的方法有剪枝、量化、知识蒸馏等等。其中剪枝是目前较为流行的方法。传统的通道剪枝方法通常分成三个步骤,首先训练一个参数冗余的网络,然
学位
复杂网络普遍存在于现实世界中,通过深入研究复杂网络有助于了解人类社会中的各种复杂系统。其中,边是网络的重要组成部分,但由于网络异质性,网络中仅有少数关键边对保证网络结构与功能起到决定性作用,通过识别复杂网络中的关键边能够以较低代价防御对有益网络的攻击或者打击有害网络以获得较大收益。然而,传统的网络中关键边识别方法从网络拓扑结构或信息传播角度出发手动设计单一度量指标或综合多个指标对边重要性进行评估,
学位