【摘 要】
:
蒙特卡罗树搜索(MCTS)在棋类博弈问题中展现出卓越的性能,但目前多数研究仅考虑胜负两种反馈从而假设博弈结果服从伯努利分布,然而这种设定忽略了常出现的平局结果,导致不能准确地评估盘面状态甚至错失最优动作。针对这个问题,首先构建了基于三元分布的多臂赌博机(TMAB)模型并提出了最优臂确认算法TBBA;然后,将TBBA算法应用到三元极大极小采样树(TMST)中,提出了简单迭代TBBA算法的TBBA_t
【机 构】
:
山西大学大数据科学与产业研究院,计算机智能与中文信息处理教育部重点实验室(山西大学),山西大学计算机与信息技术学院
【基金项目】
:
国家自然科学基金资助项目(61672332,61432011,U1435212),山西省自然科学基金资助项目(201701D121052)
论文部分内容阅读
蒙特卡罗树搜索(MCTS)在棋类博弈问题中展现出卓越的性能,但目前多数研究仅考虑胜负两种反馈从而假设博弈结果服从伯努利分布,然而这种设定忽略了常出现的平局结果,导致不能准确地评估盘面状态甚至错失最优动作。针对这个问题,首先构建了基于三元分布的多臂赌博机(TMAB)模型并提出了最优臂确认算法TBBA;然后,将TBBA算法应用到三元极大极小采样树(TMST)中,提出了简单迭代TBBA算法的TBBA_tree算法和通过将树结构转化成TMAB的TMST最优动作识别(TTBA)算法。在实验部分,建立了两个精度
其他文献
针对非授权频段长期演进(LTE)系统中动态子帧配置引起的交叉子帧干扰问题,提出了一种综合考虑大尺度损耗及小区业务量情况的混合动态分簇算法。首先,通过基站端对大尺度损耗及小区业务量情况的周期性测量,计算出对应的相关度值;然后,根据相关度值对小区进行轮询式分簇,实现小区分簇结果的周期性更新;最后,根据更新后的小区分簇结果执行动态子帧配置。仿真实验中,相比传统的静态分簇算法,中业务到达率条件下混合动态分
采用液相浸泡法,将吸湿性无机盐CaCl2与硅胶复合,制备出低温复合储能材料.对硅胶和复合储能材料的吸湿性能进行了对比实验,并利用吸附储能实验装置测试了它们的储能性能,研究了影
<正> 淋病是由革兰氏染色阴性的淋病双球菌引起的一种以尿道炎为主的性传播疾病。本病虽有特效疗法,但由于潜伏期短,接触者的传染率高达50~90%,短时间内病例可成倍增加,以及为
<正>引言 新生儿破伤风至今仍然是发展中国家的一个主要卫生问题,1989年世界卫生组织报告新生儿破伤风死亡病例约784000例。因此,消灭新生儿破伤风是扩大免疫规划(EPI)的目标
<正> 原核生物的鞭毛纤细(直径约20nm),只有用特殊染色技术着色加粗之后,才能在光学显微镜下看见。运动性放线菌的游动单元,因其数量、释放条件和具运动性的时间等均与运动性
<正>麻疹病毒(Measles Virus简称MV)是副粘病毒的一员,它往往引起发热、皮肤疹,恢复后获得终身免疫性。这种病毒可引起慢性传染病如SSPE(亚急性硬化大脑炎),即在急性疾病发生
目的 探讨CT等影像学检查在肺结核诊断中的应用,以便为临床提供参考.方法 选择在本院就诊的肺结核患者76例,行胸部X线及(或)CT检查.HRCT肺部扫描对于肺部的细微病理改变,对支气
非负矩阵分解(NMF)算法仅能用于对原始非负数据寻找低秩近似,而概念分解(CF)算法将矩阵分解模型扩展到单个非线性核空间,提升了矩阵分解算法的学习能力和普适性。针对无监督环境下概念分解面临的如何设计或选择合适核函数这一问题,提出基于全局融合的多核概念分解(GMKCF)算法。同时输入多种候选核函数,在概念分解框架下基于全局线性权重融合对它们进行学习,以得出质量高稳定性好的聚类结果,并解决概念分解模型
<正>本文叙述了使用改良的TNBP/表面活性剂处理的冻干和冷冻人血浆的生产以及这种病毒灭活血浆的体外特性。 材料与方法 人血浆处理和病毒灭活 用于生产冻干的经过S/D处理的
由于我国帕米尔高原边境地区海拔高,地形复杂且人烟稀少,使得边境地区的巡逻与防控面临很大困难,目前边防部队周期性巡逻的方式很难达到对边境地区动向的有效控制。本文提出