重复囚徒困境的学习和响应模型

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:cao5556759
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
囚徒困境问题是博弈论的一个重要范例,对此的研究涉及经济学、社会学、生物学等广泛领域。Axelrod R在文献[1]中从进化的角度研究和探讨了经典囚徒困境的一个扩展——重复囚徒困境。这种博弈要求参与者反复进行囚徒困境的博弈,并且可以记住他们的对抗历史。Axelrod还组织了两次重复囚徒困境的计算机竞赛,最终胜出的都是简单的"以牙还牙"策略[2]。这之后有不少学者试图找到可以击败它的策略,都未能取得显著成功。本文提出了一种学习和响应的理论模型,实际中的许多重复囚徒困境的策略都可以纳入这一模型中。我们分析了实现这一模型的难点和复杂度,同时给出了一种基于树结构的实现方式,并在实验中把它和"以牙还牙"作比较。实验以及分析表明,策略在竞赛中表现的优劣主要取决于如何利用一些启发式规则来权衡学习代价和博弈的总利益,以及在此基础上如何抽取对手的关键信息。
其他文献
江泽民六年来出访记事1996年6月底到7月初,国家主席江泽民访问了西班牙、挪威、罗马尼亚、乌兹别克斯坦、吉尔吉斯斯坦和哈萨克斯坦等欧亚6国,将引人注目的“元首外交”进一步推向了一
应用精确罚函数方法,将MPEC问题转化为目标函数含有罚项的一般约束优化问题。当罚因子足够大时,该约束优化问题的极小点收敛于原问题的极小点。
“领导干部一定要讲政治”。然而,讲政治并不是一句空话,要同本职工作结合起来,自觉“从我做起”,把讲政治真正落到实处。
文献[1]中提出的分布式最小能量算法,整体能耗虽低但不能避免部分节点能量过度支出.同样,按照贪心策略,本文提出一个优化整体能耗、延长系统生存时间的改进算法.算法的核心思
在跨世纪的新时期,民主党派应如何为把我国建设成为现代化的社会主义强国而奋斗?通过邓小平有关多党合作思想的学习,我体会:一方面,民主党派应该在中共各级党委的协助下,通过
连日的酷暑之后,频频光顾的小雨中雨大雨,让我想起了老屋里的夏令时光。三十年前的暑期,我从北京探亲回来,一出火车站,天哪,一场暴雨,横亘面前的中山路俨然成了一条大河!我淌
最近,澳大利亚一项新研究发现,与不玩电脑的老人相比,玩电脑的老人罹患老年痴呆症的风险降低了30%~40%。新研究还发现,与不玩电脑的人相比心理年龄,玩电脑的老人更显年轻,在
本文提出了一种基于框架结构的专有名词统一识别方法。该方法首先根据专有名词的成词特点及出现的上下文环境,重新定义语料属性;然后,提出了属性标注点(AP)的概念,对训练语料进行初次标注,并采用错误驱动的学习方法来获取规则;最后,结合规则和实例对文本进行专名识别。实验表明,该方法在测试样本集上准确率最高可以达到92.3%,召回率最高可以达到80.4%,是一种有效的专有名词识别方法。
根据历代不同时期或条件形成的药方。可以分为经方、局方、时方、禁方、秘方、单方、验方、偏方等。
中性脂肪是体内的一种脂肪,也是体内的能量之一,若没有使用的话就会储存为皮下脂肪,但身体内大部分是中性脂肪。中性脂肪被摄取后,会让小肠吸收,和脂蛋白结合,变成开罗微粒体,进入血