非完备信息机器博弈中风险及对手模型的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hbhszs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能是计算机领域的一个重要分支,其任务是研究使计算机胜任原本必须人的智力才能完成的工作。机器博弈作为人工智能的研究领域之一,是检验其发展水平的一个重要手段。它的研究为人工智能带来了很多方法和理论,产生了广泛的社会和学术影响。完备信息和非完备信息机器博弈是机器博弈领域的两个分支。非完备信息博弈的特点是博弈者在博弈过程中无法获得全部以及可信的局面信息。在非完备信息博弈中,博弈环境的真实状态往往是不可知的,参与其中的博弈者所掌握的信息是不对称和不完备的,这使得非完备信息博弈的研究更为复杂,更具有挑战性。相对于完备信息机器博弈,非完备信息机器博弈问题中的参与者因信息的不完备,策略选择面临必然的风险损失。同时,博弈者行为的个性化和非最优化的特点使之在策略选择中趋向不同的纳什均衡。实现有竞争力、高水平的非完备信息机器博弈系统,需要对以上问题展开分析,并寻求可行的解决方案。本文研究非完备信息机器博弈系统中风险模型及对手模型。研究的具体问题包括:大规模博弈树搜索,风险损失的评估与规避方法,对手建模。非完备信息条件决定了此类问题形成的博弈树规模非常巨大。蒙特卡洛博弈树搜索方法(MCTS:Monte-Carlo Tree Search)是解决大规模博弈树搜索的基本方法。UCT(Upper Confidence Bound Applied to Trees)算法为博弈树搜索过程中的分支选择过程提供了多种策略。本文实现了基于MCTS和UCT策略的非完备信息机器博弈系统策略选择方法。对不同的UCT算法策略进行分析和比对实验,讨论了UCT策略在博弈问题中的参数调整方法。非完备信息条件下,博弈者策略的预期收益与实际收益往往会产生偏差。其原因来自于对自身博弈环境判断的不准确性以及对对手行为预测的不准确性。本文提出博弈问题中的风险损失定义和估算方法。同时,结合UCT策略的置信搜索思想,提出了两者相结合的UCT-Risk策略。在实验中,该策略被证实在高风险特征的博弈问题中具有更好的效果。最后,提出了系统的风险策略选择模型。由于博弈信息的非完备性和不对称性,非完备信息博弈者趋向于不同的纳什均衡。建立对手模型,分析对手的个性化及聚类特征,建立更为高效的策略选择模型是近年来机器博弈领域的研究方向。本文还研究了对手建模的理论和算法,特别提出在棋盘类博弈游戏中的理论和应用方法。本文对对手建模过程中的对手聚类问题进行了深入探讨。使用KL(Kullback-Leibler)距离作为数据个体的聚类标准,提出了改进的群组聚类对手建模方法。该方法在保证对手聚类过程的准确性的基础上,减少对历史数据规模的依赖性,提高了历史数据的归类和分析能力。最后,本文讨论了非完备信息机器博弈系统的博弈信息获取、学习和系统评测方法,建立了一个可以支持大规模人机交互测试的机器博弈实验平台。基于测试平台积累的博弈数据,通过强化学习算法对机器博弈系统估值函数进行了训练,进一步提高了系统的博弈水平。
其他文献
高校思想政治教育是社会发展的必然产物,是教育改革中一种新型的教育方式,目前,高校大学生思想政治教育工作已经成为我国教育体制的重要内容,高校大学生思想政治教育的目标主
肾脏是体内药物代谢排泄的重要器官,水溶性药物在尿液中的浓度可以达到血药浓度的100倍,容易引起肾损害.主要有药物引起的毒性反应,过敏反应以及肾血流动力学改变和尿路阻塞
既有法治理论无法面对当下法律生活中少数民族习惯法复苏与活跃的事实。本文认为,应在法、司法和法治三个层面重新解释少数民族习惯法的身份、功能与价值,通过合法化、司法化
计算机专业学生需要更多地关心计算系统的整体特性,培养自身计算机系统能力,这也是工程教育的特征。文章分析计算机技术发展的特点,介绍系统能力的主要内涵及培养需求,阐述系
海上油气勘探具有高成本、高科技、高风险的特点,因此必须坚持以寻找大中型油气田为主要勘探思路,通过创新认识,提高勘探技术,坚持走高效勘探之路。随着油气藏勘探技术的不断提高
在相关研究的基础上,本文运用结构方程建模方法建立了感知购物环境对旅游者购物行为的全影响和间接影响模型,通过对两个模型的对比分析,发现了感知购物环境影响旅游者购物行
目的总结呼吸内科老年患者常见的护理问题,并提出对策。方法分析本科40例60岁以上住院患者的基本情况及疾病情况,对其常见护理问题进行分析。结果呼吸内科40例老年患者的健康
一块宅基地,其上附加的权利具有多样性和多重性,包括集体土地所有权、宅基地所有权和使用权、农民住房所有权、农民居住权等,因不同的权利涉及不同的主体,所以农村宅基地使用
本论文以大洋钻探计划(ODP; Ocean Drilling Program,1983-2013)184航次南沙1143站的有孔虫稳定氧、碳同位素(8180和813C)分析为基础,研究了13-5Ma间南海南部的古海洋学特征
肿瘤是目前威胁人类生命的最严重的疾病之一。据统计,90%以上的肿瘤患者是因为耐药性而导致临床化疗失败。导致肿瘤耐药性的原因是多方面的,其中由于肿瘤的快速增长,肿瘤微环