【摘 要】
:
深度强化学习与人类思维方式十分接近,如今应用越来越广泛,比如围棋博弈、无人驾驶、金融市场等。常用的深度强化学习方法,大部分使用深度Q网络,但该算法存在一定不足,比如计算量大、收敛速度慢甚至不收敛、高估、需要较多的训练样本等问题。针对上述问题,本文结合分数阶微积分,提出预训练网络的分数阶优化方法,并改进了经验队列数据结构。本文的主要内容如下:1.为了提高深度Q网络的收敛速度,本文将有监督学习与强化学
论文部分内容阅读
深度强化学习与人类思维方式十分接近,如今应用越来越广泛,比如围棋博弈、无人驾驶、金融市场等。常用的深度强化学习方法,大部分使用深度Q网络,但该算法存在一定不足,比如计算量大、收敛速度慢甚至不收敛、高估、需要较多的训练样本等问题。针对上述问题,本文结合分数阶微积分,提出预训练网络的分数阶优化方法,并改进了经验队列数据结构。本文的主要内容如下:1.为了提高深度Q网络的收敛速度,本文将有监督学习与强化学习、分数阶微积分与神经网络相结合,对深度Q网络的整数阶预训练模型进行GL型分数阶拓展。首先,针对引入分数阶微积分后出现的负数的分数次幂的问题,提出符号分离的方法;其次,针对蛮力搜索分数阶阶次计算量大的问题,使用分治的思想设计了寻求最优分数阶阶次的方法,并在理论上证明了本文算法的时间复杂度为O(log2n);最后,利用手写体识别数据集及市场交易数据集进行验证。结果表明,本文算法在提高收敛速度及抑制高估等方面较整数阶模型有所提高。2.针对深度Q网络的训练集需要大量的样本,本文在原有经验队列的基础上提出一种新的经验队列数据结构,并设计了新的调度算法。首先引入回放次数及价值比,利用logit函数计算价值比,将样本进行两极分化;然后利用价值比生成抽样分布函数,使用分布函数抽样降低了传统经验回放过程中出现重复抽样或抽到较差样本的可能性,提高了经验队列的回放性能;最后将本文的改进算法在决策数据分析中进行应用,取得了较好的结果。
其他文献
目的:研究黄帝内针对CKD4-5期(非透析)患者消化道症状及生活质量的影响。方法:符合纳入标准及排除标准61例CKD4-5期(非透析)患者,按照随机数字表方法将患者随机分为治疗组31例,对照组30例。对照组予常规基础治疗,治疗组在对照组治疗基础上加用黄帝内针,以黄帝内针四大总则“上病下治,下病上治;左病右治,右病左治;同气相求;阴阳倒换求”为指导,严格按照“六、三、二、一”的诊疗方法进行取穴,针刺
“一带一路”高峰论坛提出的的“创新、可持续、绿色”等理念,再结合疫情的影响,都表明企业需要进一步加强境外投资活动的风险识别。我国中央企业采用PPP模式进行境外基础设施建设项目投资时,应加强对项目前期识别和准备阶段的监管。审计是国家治理的重要抓手,从审计角度加强中央企业在境外投资PPP项目前期识别和准备阶段的监督,是实现审计全覆盖的路径之一。由于存在境外审计监管困境,因此,本文将协同治理理论嵌入中央
货币制度是指一个国家以法律形式规定的货币流通的组织形式,而官方货币政策是货币制度最基本的内容。因此,了解一个朝代乃至一个历史时期的货币政策是我们认识当时货币制度的关键。在中国货币史上,金元明三朝先后实施的“禁钱”与“禁银”两种货币政策,构成了这一时期货币政策的重要内容,对中国古代货币流通格局的演进产生了重大而深刻的影响。秦汉以降,除魏晋时期一度废钱不用外,铜钱长期是历代王朝铸行的主要货币。可是,金
以成熟好氧颗粒污泥(AGS)为接种污泥,在序批式反应器(SBR)中考察其对低浓度市政污水的处理效能、污泥特性及微生物多样性的变化.结果表明,在低有机负荷(进水COD为179~212 mg·L-1)、高溶解氧(DO>5 mg·L-1)条件下,系统出水COD低于50 mg·L-1,NH+4-N浓度稳定在0.7~0.8 mg·L-1,但脱氮除磷效能有待优化.体系中0.2~0.6 mm的污泥颗粒最为稳定,
目的:研究不同程度的核磁总负荷对整体认知功能及各认知域的影响,探讨核磁总负荷严重程度与痰湿体质的相关性,筛查相关危险因素。方法:纳入2021年01月至2022年02月在我院就诊,影像学资料显示为腔隙(lacunes,LAC)、白质高信号(white matter hyperintensities,WMH)、血管周围间隙(perivascular space,PVS)和脑微出血(cerebral m
目的 息肉样子宫内膜异位症(PEM)是子宫内膜异位症(EMs)的一种罕见病变类型,易误诊。文中探讨PEM的临床特征及诊断方法。方法 回顾性分析2017年7月-2020年12月于福建省妇幼保健院收治的7例PEM患者的临床资料,总结其临床特征、诊疗及预后情况。结果 患者发病年龄31~41(38.00±1.72)岁。6例盆腔重度黏连,5例合并有子宫腺肌病和异常子宫出血,4例合并有子宫内膜息肉及不孕症,临
目的:探讨益肾排毒合剂对慢性肾脏病(Chronic kidney disease,CKD)3b-4期脾肾气虚型患者营养状态的影响。方法:收集2018年05月01日至2019年11月30日在广西中医药大学第一附属医院肾病科门诊及住院部就诊,且完成研究的106例CKD3b-4期脾肾气虚型患者,根据患者临床药物实际使用情况可分组为益肾排毒合剂组、益肾排毒合剂+常规基础治疗组、常规基础治疗组,依次对应为A
清代的澄江府经过民国时期的调整,中华人民共和国时期逐渐整合为玉溪市。玉溪市所辖9个区市县,既有湖山之利、鱼米之饶,也有独特的民族历史文化,是我国西南边疆的重要组成部分。探索清代以来这一地区的历史变迁和经济社会发展,认识其在西南边疆发展中的地位和作用,既有利于推动西南边疆史、民族史的发展,也有利于域内相关部门总结和借鉴历史,更好地做好新时代区域社会的发展工作。与本区域经济社会的发展状况不相匹配,玉溪
近几年,随着脑电采集设备的迅速发展,出现了无需涂抹导电胶的无线头戴式单电极脑电采集设备。相比于多电极设备采集方式的繁琐与复杂,该类设备以其易用性和灵活性,渐渐成为了研究脑电情感识别的新选择。然而针对单电极脑电设备的相关研究仍然较少,且得到的分类准确率、情感识别模型的鲁棒性和脑电信号表征能力仍有待提升。因此论文提出了一种基于多尺度时间窗口组合特征的脑电情感识别方法,为单电极脑电信号情感识别研究提供一
为了研究好氧颗粒污泥系统处理低碳氮比废水的长期运行稳定性,采用低碳氮比(C/N)条件下逐步增加碳氮负荷的进水方法,分别在反应器A和B中接种好氧颗粒污泥,考察其长期运行过程中的理化性质、处理性能及应对冲击负荷的稳定性.其中A反应器的碳氮比一直维持在2,而B则由4逐步降至2.结果表明,在4℃存储30d的好氧颗粒污泥,经过25d的培养,其活性基本恢复,A、B反应器化学需氧量(COD)和氨氮(NH+4-N