基于强化学习的伦理智能体训练方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:jianzhu119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的高速发展,人工智能已经广泛应用到医疗、交通、金融等诸多领域,智能看护机器人、自动驾驶汽车等形式多样的智能体在人类生活中也扮演着越来越重要的角色。然而人类在享受人工智能带来的便利之时,也需要解决其带来的伦理问题。例如,机器人误将工人识别为钢板切割、智能音箱建议其使用者自杀、无人驾驶汽车失控致人死亡等。因此,如何确保智能体具备遵守人类基本伦理规范的能力,并与人类进行恰当而友好的互动,是当前人工智能领域亟需解决的问题。强化学习是一种基于试错的学习方法,能够协助智能体在与环境交互过程中、依据特定学习策略解决目标问题,同时获得最大回报。因此,本文提出了一种新颖的强化学习方法,并以此为基础完成了对伦理智能体的训练。具体地,本文主要围绕以下研究内容展开:(1)构建了能够体现人类共同价值观的行为数据集,用以训练智能体获得人类价值观,使之遵守人类伦理道德规范。利用众包技术收集了借助自然语言表述的人类行为数据,解决了数据集构建时普遍存在的费用高昂、耗时、存在偏见等缺点;进一步通过文本聚类、关联分析等技术生成情节图及轨迹树,用以定义智能体训练时的基本行为空间,约束行为的发生顺序。(2)提出了元伦理行为这一概念,并基于《中学生日常行为规范》提取了9种元伦理行为,以实现对不同场景中相似行为的概括,同时扩充智能体的行为空间。进一步设计了一种综合考虑道德、规范以及法律因素的人类行为伦理分级机制,并利用众包技术对以上元伦理行为进行了分级,以完善强化学习中的奖惩机制,使智能体能够灵活、高效应对可能遇到的人类行为,具备更强的伦理判断能力。(3)通过模拟现实生活中常见的买药场景,测试了以上方法的有效性及合理性。首先借助于Amazon Mechanical Turk众包平台收集该场景的人类行为示例;其次,借助于情节图、轨迹树构建了智能体训练的基本行为空间;最后,通过将买药场景中的基本行为、元伦理行为映射到强化学习环境中,完成了伦理智能体的训练。实验结果表明,相对于未采用以上方法进行训练的智能体,基于以上训练方法得到的伦理智能体具有更显著的执行伦理行为的能力,说明该方法是合理有效的。
其他文献
具有控制力矩陀螺的两轮车机器人是一种结合普通自行车和Segway两轮车为一体的运动机器人。这种两轮车机器人既可以变成自行车,也可以变成Segway两轮车。在机械结构上,机器人引入了一对控制力矩陀螺,用于调节机器人的运动平衡。这种两轮车机器人能够在自行车和Segway两轮车两种状态之间实现任意切换,因此可以适应于宽窄不同的道路,可以非常好的应用于快递运输、仓库物流等行业。本文以具有控制力矩陀螺的两轮
在如今的大数据时代,海量数据通过各种硬件及软件源源不断生成,并具有高速、无限的特征,这些数据以流的形式生成并到来,同时这些数据的分布会随着自身或外界环境的改变而发生动态变化的现象,从而使得真实场景下的数据流具有概念漂移的特性。传统的数据挖掘的应用场景要求处理的数据是批量的且满足独立同分布的条件,所以传统的静态数据挖掘针对高速、无限且具有概念漂移的数据流变得不再适用,需要使用数据流挖掘技术来解决此问
在毫米波大规模MIMO系统中,不同于传统的数字预编码所需射频链成本和能耗过高而难以实现,与模拟预编码相结合的混合预编码通过引入移相器成为更实用的方案。然而,混合预编码中模拟域无法调节信号的幅度,使模拟预编码矩阵受限于恒模约束。在这样的非凸约束条件下,混合预编码的优化问题是难以直接求解的。本文对毫米波MIMO系统中的混合预编码优化方案进行分析求解,以最大化系统频谱效率为首要目标,同时兼顾计算复杂度,
在海洋战略地位不断提升的今天,各种复杂水下作业活动日益频繁,亟需一种高速实时的水下无线通信技术。而水下可见光通信具有高带宽、低延时等优势,成为了研究的热点。但是发光二极管(Light Emitting Diode,LED)较窄的调制带宽成为了限制水下可见光通信系统传输速率提升的瓶颈,为此可使用预均衡技术来扩展LED的调制带宽。此外,还可以引入高通信速率和频谱利用率的直流偏置光正交频分复用(Dire
近年来,无人机产业发展迅速,并已广泛应用于社会生产生活中。然而,由于无人机具有低空、慢速以及小目标的特点难以进行管控,危害空域安全的违法“黑飞”事件时有发生。如何有效解决无人机的“黑飞”问题成为了本课题的根本动因和目的。“黑飞”问题的解决方案主要由检测和管控两部分构成,先检测到无人机目标后,再对其进行诱骗控制。本文主要对基于相关滤波的目标跟踪算法进行了改进,研究并实现了基于深度学习的无人机视觉跟踪
由于波分复用(Wave Division Multiplexing)通信系统的传输容量已逐渐逼近非线性香农极限,以少模光纤(FMF)为代表的模分复用技术与多芯光纤(MCF)为代表的空分复用相结合技术开始出现,解决了传输容量不足的问题。四波混频(FWM)作为少模光纤内部的一种非线性效应,在早期光通信网络中被视为限制通信系统传输性能的主要因素,但FWM也能广泛应用于光放大、模式转换、波长转换等多个研究
卫星导航产业正随着科技的腾飞而迅速发展,作为卫星导航产业中必不可少的定位授时终端—GPS接收机的需求日益增加。如何科学有效地验证GPS接收机的性能也逐渐成为导航产业的热门问题。GPS模拟器能够有效帮助GPS接收机进行验证仿真,是分析GPS接收机性能的重要工具,所以对于GPS模拟器的研究与实现具有较大的工程意义。本文通过FPGA+ARM平台进行GPS L1频点的实时再生模拟器设计,完成对GPS L1
随着现代无线通讯技术的发展,智能终端设备也得以迅速普及。这导致了智能终端设备保有量的暴增。再加上物联网(Internet of Things,IoTs)技术的不断成熟,使得智能终端设备所使用的数据流量开始呈现爆发式的增长,人们对于高速数据传输的迫切需求与通讯时延之间的矛盾愈演愈烈。为满足智能终端设备日益增长的无线通信需求,以蜂窝网络基础的端到端(Device-to-Device,D2D)通信技术被
随着北斗三号系统的建设完成,北斗系统在各个领域的重要作用日益凸显,但其局限性也开始显露。在室内环境下,卫星信号被遮蔽,无法进行导航定位。甚至在室外环境下,有时也会受到高大的地形地物的影响,定位的精度和连续性随之下降。伪卫星技术作为GNSS系统的主流辅助定位技术,既能独立组网用于室内高精度定位,又能作为北斗系统的地基增强系统,与北斗系统进行无缝融合定位。因此伪卫星技术与北斗系统相结合,可以弥补北斗系
随着无人机技术发展迅猛,使得无人机在生产生活中被广泛使用,但无人机的不规范使用对航空管制和公共安全造成了威胁。因此,如何对无人机进行有效地检测成为了亟待解决的问题。由于无人机具有飞行高度低、飞行速度慢、不易被发现的特点。同时无人机飞行环境十分复杂,存在大量杂波和干扰,传统的雷达检测方法很难将其从复杂的环境中检测出来。因此,本文提出知识辅助的反无人机雷达检测方法,提高无人机目标检测性能,具体如下:(