深度强化学习算法求解作业车间调度问题

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:colawing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于传统车间调度方法实时响应能力有限,难以在复杂调度环境中取得良好效果,提出一种基于深度Q网络的深度强化学习算法.该方法结合了深度神经网络的学习能力与强化学习的决策能力,将车间调度问题视作序列决策问题,用深度神经网络拟合价值函数,将调度状态表示为矩阵形式进行输入,使用多个调度规则作为动作空间,并设置基于机器利用率的奖励函数,不断与环境交互,获得每个决策点的最佳调度规则.通过与智能优化算法、调度规则在标准问题集上的测试对比证明了算法有效性.
其他文献
作为广受用户青睐的即时通信系统,微信在给人们生活带来极大便利的同时,也给不法分子提供了违法犯罪的新手段、新工具.微信聊天记录作为我国法律中明确列出的电子证据类型,其有效性引起广泛关注,使得微信聊天记录的恢复成为相关领域的研究热点.针对现有的聊天记录恢复研究多集中于删除消息的恢复,撤回消息的恢复尚未取得有效进展,通过研究PC版微信运行过程中的动态内存管理机制,分析撤回消息在动态内存中的特征字符及字段结构,对比文本、表情、图片等不同类型的消息在内存中的存储原理,提出一种基于动态内存分析的微信撤回消息恢复方法.
情感识别依靠分析生理信号、行为特征等分析情感类别,是人工智能重要研究领域之一.为提高情感识别的准确性和实时性,提出基于语音与视频图像的多模态情感识别方法.视频图像模态基于局部二值直方图法(LBPH)+稀疏自动编码器(SAE)+改进卷积神经网络(CNN)实现;语音模态基于改进深度受限波尔兹曼机(DBM)和改进长短时间记忆网络(LSTM)实现;使用SAE获得更多图像的细节特征,用DBM获得声音特征的深层表达;使用反向传播算法(BP)优化DBM和LSTM的非线性映射能力,使用全局均值池化(GAP)提升CNN和L
针对传统的卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆网络(Long Short-TermMemory,LSTM)在提取特征时无法体现每个词语在文本中重要程度的问题,提出一种基于CNN和LSTM的多通道注意力机制文本分类模型.使用CNN和LSTM提取文本局部信息和上下文特征;用多通道注意力机制(Attention)提取CNN和LSTM输出信息的注意力分值;将多通道注意力机制的输出信息进行融合,实现了有效提取文本特征的基础上将注意力集中在重要的词语上.在三个公
针对传统的玉米叶片病害图像识别方法正确率不高、速度慢等问题,提出一种基于改进深度残差网络模型的玉米叶片图像识别算法.提出的改进策略有:将传统的ResNet-50模型第一层卷积层中7×7卷积核替换为3个3×3的卷积核;使用LeakyReLU激活函数替代ReLU激活函数;改变残差块中批标准化层、激活函数与卷积层的排列顺序.进行数据预处理,将训练集与测试集的比例划分为4:1,采用数据增强的方式对训练集进行扩充,将改进的ResNet-50模型经过迁移学习得到在ImageNet上预训练好的权重参数.实验结果表明,改
知识图谱问答是自然语言处理领域的研究热点之一,近年来受到广泛的关注.知识图谱问答面临需要结合多条三元组进行推理的多跳问题以及知识图谱不完整等挑战,为解决这些问题,提出了一种融合知识表示学习的双向注意力模型(Bidirectional Attention model combining Knowledge Representation,KR-BAT).引入知识表示学习以提高模型全局建模能力,应对知识图谱不完整的情况;使用双向注意力模型捕捉候选答案和问题间丰富的交互信息,经过分析推理给出答案.在MetaQA数
现代目标检测算法仍然存在由现有目标检测架构引起的正负样本不平衡和训练数据引起的难易样本不平衡.现有方法一般采用基于类别频率的重采样或基于类别预测概率的重新加权,虽然减轻了类别的不平衡问题,但是引入了新的超参数,为每个训练任务需要进行大量的手动调整超参数.为此在现有Focal Loss损失函数基础上提出了一个新的损失函数自适应聚焦损失(Adaptive Focal Loss),使模型聚焦于对训练过程贡献更大的困难样本,并且可自适应地调整超参数.根据训练过程中每批图像标签中的正负样本数量计算出自适应的加权因子
针对局部立体匹配在光照失真和弱纹理区域匹配精度低的问题,提出了一种多特征融合的代价计算和自适应十字窗口聚合的立体匹配算法.引入HSV颜色空间分量,结合改进后的Census变换和梯度信息作为匹配代价计算方法,排除了视差边界异常值的影响,增强了算法对光照失真的稳健性;提出了基于梯度信息和可变颜色阈值的自适应窗口代价聚合方法,提高了在弱纹理区域的匹配精度;通过视差计算和多步骤的视差精细得到了最终的视差结果.实验结果表明,所提算法较AD-Census算法在无光照失真条件下误匹配减少了3.24%,能有效解决视差边界
提出利用迁移字典解决复杂行为数据集标签样本不足的问题.所提出的方法使用简单行为作为源域,来辅助识别由一系列简单行为组成的复杂行为.通过稠密轨迹提取视频的低级特征,利用字典学习从简单行为和复杂行为的低级特征中分别获得相应的稀疏表示,并利用简单行为的稀疏表示通过迁移矩阵改善复杂行为的稀疏表示.因此,即使在复杂行为标签样本较少的情况下,迁移字典也能够获得更有效的高级特征.同时,利用GAN在特征层面上进行数据增强,帮助学习表征能力更强的字典.提出的方法在UCF101和HMDB51两个数据上进行了实验,在小样本量的
针对密度峰值聚类算法存在数据集密度差异较大时,低密度区域聚类中心难以检测和参数敏感的问题,提出了一种新型密度极值算法.引入自然邻居概念寻找数据对象自然近邻,定义椭圆模型计算自然稳定状态下数据局部密度;计算数据对象余弦相似性值,用余弦相似性值来更新数据对象连通值,采用连通值划分高低密度区域和离群点;构造密度极值函数找到高低密度不同区域聚类中心点;将不同区域非聚类中心点归并到离其最近的聚类中心所在簇中.通过在合成数据集和UCI公共数据集实验分析:该算法比其他对比算法在处理密度分布差异较大数据集上取得了更好的结
情感分类一直是自然语言处理任务中重要的研究热点,并在电子商务评论、热点论坛、公共舆论等众多场景中广泛应用.如何提高情感分类模型性能仍是情感分析领域的重点研究问题.集成学习是通过联合若干分类器达到提高模型总体效果的有效方法.基于粒计算和三支决策思想,并结合集成学习的优势,构建了结合集成学习的多粒度序贯三支决策模型.通过N-gram语言模型构建文本多粒度结构,形成序贯三支情感分类基础;在每一粒度下,集成三个分类算法以提高在该粒度下的分类效果;通过4个数据集对所提出方法进行了实验验证.结果证明,该方法不仅可以提