基于改进Hierarchical Temporal Memory的新型强化学习方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:xiaofeixiaheiwa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是最近研究中机器学习的研究热门,已被广泛的应用于游戏和自动车辆控制等系统中。Agent是影响强化学习准确性和训练效率的重要因素,也是研究中的难点问题。Hierarchical temporal memory能有效获取序列的特性,为构建Agent提供了支撑,但现有的Hierarchical temporal memory无法利用序列中输入的位置信息提高准确性,难以适应。因此,本研究基于改进Hierarchical temporal memory的新型强化学习方法。首先,设计一种基于Hierarchical temporal memory的新型强化学习算法,以提高强化学习模型的准确性。包括基于Hierarchical temporal memory的新Agent和新的强化学习模型训练算法。在此基础上,我们实现了算法的原型,使用Cart Pole和交通灯数据进行了测试与分析,实验结果表明,我们所设计的算法仅需要10次迭代就能超过现有强化学习算法达多轮10次迭代所达到的准确率。其次,设计一种基于Grid cell的Hierarchical temporal memory的空间池以提高准确性。我们提出了一种基于Grid cell的微柱选择方法,利用输入序列中包含的位置信息改进Hierarchical temporal memory空间池;并给出了基于Grid cell的Hierarchical temporal memory的训练流程。并实现了基于grid cell空间池的原型,使用MNIST数据集、Time Synth数据集和Hot Gym数据集进行了测试与分析;结果显示,在Time Synth数据集和Hot Gym数据集上,使用我们所设计的空间池算法能使得hierarchical temporal memory的准确率分别提高3.7%and 1.4%,同时与现有的Hierarchical temporal memory相比训练空间池所需的时间开销能减少88.2%和88.7%;在使用MNIST数据集的分类任务中,相比现有的空间池算法,我们所提出的算法能将分类的准确率从82.65%提高到94.97%。
其他文献
目的:脊髓损伤(spinal cord injury,SCI)是一种由外力、炎症等多种因素所引起的运动、感觉和自主神经功能障碍的损伤性疾病。它的高度致残性及低水平的治愈率,使得患者们长期遭受痛苦。虽然临床上常规的药物治疗在一定程度上改善了症状、暂缓了病程,但由于局部损伤处神经细胞的缺失、星形胶质瘢痕的形成、炎性微环境等不利因素的存在,导致其临床预后不佳。间充质干细胞是一种具有强大神经分化潜能的种子
学位
中药材枳壳是芸香科柑橘属植物酸橙(Citrus aurantium L.)及其栽培变种的干燥未成熟果实。枳壳在我国历史悠久,其作为江西的道地药材之一,炮制方法具有一定的江西特色。枳壳多为7月大暑前后一周采收,自中部横切为两半,晒干或低温干燥即得枳壳原药材。枳壳来源较多,地理分布较广,且来源具有一定的地域特征。目前已有研究表明,不同产地或不同来源枳壳中的化学成分存在一定的差异性。前人多数对枳壳鉴别与
学位
目的:精神分裂症是一种以意识与行为不协调为主要临床特征,神经递质功能紊乱为典型病理改变的慢性、致残性精神类疾病,全球平均发病率约为1%,给患者及其照顾者带来了巨大的负担。作为第二代抗精神分裂症药物,奥氮平在临床上显示了优良的治疗效果,但部分患者在服用一段时间后出现药物作用抵抗现象。本组前期遗传学研究发现奥氮平作用敏感性与精神分裂症患者神经细胞谷氨酸代谢个体差异密切相关。服用奥氮平患者出现获得渐进性
学位
高血压作为一种心脑血管疾病,其发病规律具有明显的时辰节律性。盐酸维拉帕米(verapamil hydrochloride,VH)作为临床常用的抗高血压药物,具有生物半衰期短、肝首过效应大等药动学特点,需多次给药才能维持治疗所需血药浓度,由此产生的血药浓度波动、药物代谢和排泄等问题,造成了其在临床应用上的局限性。传统制剂已无法满足临床治疗需求,根据美国食品药品监督管理局推荐,高血压治疗应选择日服一次
学位
目的:皮肤是人体最大的器官,很容易受到各种损伤,在过去的几十年里,伤口敷料、同种异体移植、组织工程替代品等治疗手段的出现促进了皮肤损伤的修复,然而创面血管生成不足、发病率高、粘附性低和制造成本高等问题极大地限制了这些治疗策略的应用。而细胞疗法为皮肤再生和修复提供了一种新的治疗手段。间充质干细胞是一类具有自我更新能力和多向分化潜能的成体干细胞,是目前临床应用研究较多的一类干细胞,通过多向分化与旁分泌
学位
兽用疫苗的使用有效降低了重大动物疫病的发生,对畜牧养殖业的健康发展具有重要意义。选择合适的佐剂对于提高兽用疫苗的免疫保护效果事半功倍。油乳佐剂,特别是水包油型油乳佐剂,由于黏度低、毒性低,已成为近年来兽用疫苗制造行业研究的重点。然而,传统的水包油型油乳佐剂制备过程受到乳化设备、转子速度、乳化时间等限制,导致生产成本过高,难以满足兽用疫苗的生产需求。自乳化型水包油乳剂主要是基于含有油相、表面活性剂和
学位
近年来,各种抗生素蓄积引起的水环境污染问题引起社会广泛关注。环境中残留的抗生素污染严重,严重威胁着水体的生态和人体的健康。所以,寻求一条有效的抗生素污染防治途径已经成为环境保护中一个极其重要的课题。目前,吸附法因其操作简便、高效率、成本低廉、无二次污染等优势而被认定是一种非常有效的治理方法。本文围绕二维层状材料水滑石(LDH),利用其有序的层状结构、优异的离子交换性能以及组成和结构的高度可调控性,
学位
人参(Panax ginseng C.A.Meyer)因其在疾病中的多种保健作用,长期以来一直是重要的中草药。在过去的几十年中,许多科学家对人参的有效主要成分进行了研究和分离,以获得更有效的化合物单体。其中人参皂苷Rb1(ginsenoside Rb1,GRb1)是人参的主要活性成分之一,科学家对其药理活性进行研究后发现,其抗癌活性较为突出,但因为其口服吸收差及生物利用度低,导致临床应用的限制较大
学位
盾叶薯蓣(Dioscorea zingiberensis C.H.Wright)根茎俗称黄姜,其主要化学成分为甾体皂苷,目前主要用于制备甾体激素类药物的重要原料薯蓣皂苷元。薯蓣皂苷元在黄姜中则以甾体皂苷的形式存在,传统的无机酸水解等制备方法难以实现催化剂的循环使用,并产生大量废液排放,污染较为严重。薯蓣次苷A具有较强的抗肿瘤活性和较低的溶血性,是一种潜在的抗癌先导化合物,但其在原植物中含量极低,难
学位
G-四链体DNA(G4 DNA)是由富含鸟嘌呤的重复DNA序列折叠而成的,四个鸟嘌呤碱基在一个方形平面上通过氢键发生相互作用,由金属离子(如K+和Na+)稳定。G4 DNA的序列在人基因组中广泛分布,涉及DNA复制、端粒维持、基因表达与调控等重要的过程,因此开发靶向G4 DNA的荧光探针越来越受到研究人员的广泛关注。咔唑的小分子探针因具有良好的供电能力和丰富的光物理性质,在生物成像中得到了迅速发展
学位