什么是深度强化学习:人工智能和深度学习的下一步

来源 :计算机世界 | 被引量 : 0次 | 上传用户:yinyulong001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  强化学习非常适合于监督学习或者无监督学习技术不能胜任的自主决策环境。
  在人工智能领域,强化学习一直处于小众地位。但是,强化学习过去几年中已经开始在很多人工智能项目中发挥出了很大的作用。其最佳应用点是在环境情境化决策场景中计算出代理应采取的最优措施。
  强化学习使用试错方法来最大限度地实现算法奖励函数,因此,非常适合IT运营管理、能源、医疗、商业、金融、交通运输和金融等领域的很多自适应控制和多代理自动化应用。它被用来在机器人、游戏和仿真等传统关注的领域中训练人工智能,也用于边缘分析、自然语言处理、机器翻译、计算机视觉和数字助理等新一代人工智能解决方案。
  强化学习也是物联网自主边缘应用开发的基础。对于工业、交通运输、医疗和消费类应用,大部分边缘应用开发都涉及到在动态环境下,开发出能够在不同程度自治情形下运行的人工智能机器人。
  强化学习是怎样工作的
  在这样的应用领域,由于缺少预先存在的“完全真实”的训练数据集,边缘设备的人工智能大脑必须依靠强化学习,目的是最大限度地实现累积奖励函数,例如,根据规范中包含的一组标准来装配制造组件。这与其他类型的人工智能学习方式形成了对比,其他类型的人工智能通过(例如有监督学习)最小化基于完全真实数据的算法损失函数,或者(例如无监督学习)最小化数据点之间的距离函数来进行学习。
  然而,这些人工智能学习方法并不一定是相互孤立的。最有趣的人工智能发展趋势之一是强化学习与有监督和无监督学习在更高级应用中的融合。人工智能开发人员在应用中混合了这些方法,因为没有一种单一的学习方法能满足需求。
  例如,如果没有带标签的训练数据,监督学习本身是无用的,自动驾驶等应用中经常没有带标签的数据,每一次环境的瞬间变化基本上都是没有标签的,也是唯一的。同样的,无监督学习——使用了聚类分析来检测传感器馈入数据和其他复杂的无标签数据中的模式,并不适合用于确定智能端点在实际决策场景中应采取的最佳措施。
  什么是深度强化学习
  还有深度强化学习,在这种前沿的技术中,自治代理使用强化学习的试错算法和累积奖励函数来加速神经网络设计。这些设计对依赖于有监督和/或无监督学习的人工智能应用有着强大的推动作用。
  深度强化学习是人工智能开发和训练流水线自动化的核心研究领域。深度学习、机器学习和其他人工智能模型的设计人员在确定各种架构、节点类型、连接、超参数设置,以及其他选项时,使用深度强化学习驱动的代理能够帮助他们迅速弄清楚这些设置的优缺点。
  例如,研究人员使用深度强化学习,快速确定哪一种深度学习卷积神经网络(CNN)架构最适合解决特征工程、计算机视觉和图像分类等应用中的各种难题。人工智能工具使用通过深度强化学习得出的结果,自动生成最优CNN,针对具体任务,可以使用TensorFlow、MXNet和PyTorch等深度学习开发工具。
  在这方面,令人鼓舞的是出现了强化学习开发和培训的开放框架。当你研究深度强化学习时,表中列出的强化学习框架可以供你参考,这些框架与TensorFlow以及其他深度学习和机器学习建模工具有接口,利用并扩展了这些得到广泛应用的工具。
  人工智能开发人员需要的强化学习技能
  展望未来,人工智能开发人员自己也应该沉浸在这些以及其他框架中实现的各種强化学习算法中。还需要加深对多代理强化学习架构的理解,其中很多架构充分利用了已经建立起来的博弈论研究成果。还应该熟悉深度强化学习,将其作为一种工具来识别计算机视觉应用中与“模糊”这种攻击方法相关的安全漏洞。
其他文献
如今已经不存在隐私性与安全性的较量了。《通用数据保护条例》(GDPR)和客户数据泄露等规定已经让隐私保护和安全工作融为了一体。  如今,欧盟影响深远的《通用数据保护条例》(GDPR)已于5月25日生效,Facebook也已被要求必须要向国会解释他们与剑桥分析公司的关系。与此同时,每天的新闻中都充斥着关于隐私问题和大规模数据泄露的报道。  对于网络安全专业人士来说,隐私保护成为重点意味着他们的担忧和
5G、物联网和人工智能技术正在成为驱动创新与实现数字化转型的重要力量,一个新的数字化经济时代正在来临。同时,智能电网、微电网的快速发展,以及可替代能源成本和储能成本的不断降低,促使数据中心物理基础设施与上游的电网和下游的IT将会有更多的交互和融合。展望2019年,施耐德电气认为数据中心将迎来以下五大新趋势。  新趋势之一:边缘计算将与云计算协同发展  过去的一年,施耐德电气看到了很多关于边缘计算的
摘 要 :国家的软实力既可以体现为一国外交政策的道义原则,也可以体现为该国文化中具有普遍吸引力的内涵,例如社会制度、生活方式、人格理想和伦理价值观、艺术审美形式和整体的人文环境,等等。文艺复兴时期的意大利和近代法国文化软实力的形成值得加以研究。意大利文艺复兴艺术的发展与当时宫廷和富有阶层对艺术的赞助和奖掖息息相关。艺术的华丽光芒又与意大利文艺复兴人格理想相辅相成。在借鉴意大利艺术的基础上,法国创造
4月30日,中国移动携手华为在珠穆朗玛峰海拔6500米前进营地开通全球海拔最高5G基站,成功实现5G信号对珠峰北坡登山线路及峰顶的覆盖。这将为珠峰登山、科考、环保监测、高清直播等活动提供有力通信保障。  今年4月,中国移动先后在海拔5300米珠峰大本营、5800米过渡营地、6500米前进营地建成开通5个5G基站,实现大本营到峰顶的5G连续覆盖。  此外,中國移动联合华为、准达,在珠峰5300米大本
新的发展目标旨在提高超融合系统在大型企业中的吸引力。  超融合技术正在飞速发展。  企业正在将存储投资从传统架构转移到软件定义的系统,以便实现更大的灵活性、更容易的配置和更低的管理成本。超融合系统——即将存储、计算和网络功能结合在一个单一的虚拟化解决方案中——已经进入了企业的视线。  企业对作为传统SAN和NAS存储系统的潜在替代品的超融合系统的兴趣反过来又激发了主要存储供应商进入超融合领域,收购
摘 要 陕甘宁边区是抗战时期展示中共施政理念与实践的最佳样本,在建构中共政治形象中具有典型意义。中共力图通过报刊、图书介绍、赴边区考察等形式向大后方民众宣传边区所取得的巨大成就,把边区塑造为中国政治上最民主最先进的地区,从而构建一个既有先进理论指导,又具备善治能力的先进政党形象。这些措施扩大了陕甘宁边区在国内外的影响,增进了大后方民众特别是部分知识分子对边区及中共的了解,有力地提升了中共的政治形象
以下为企业成功部署物联网的基石,以及关于AWS IoT、IoT 1-Click、思科Jasper、Azure IoT、IBM Watson IoT和谷歌Cloud IoT Core的详细信息。  基本上不用你说,IT圈里的人都清楚,物联网(IoT)非常重要并且正以极高的速度飞速增长。据市场研究机构BI Intelligence估计,到2019年物联网设备将会达到233亿部。随着物联网连接越来越受企
日据东北时期,为了在伪满境内营造出一个万民崇奉的“国家信仰”,从而达到钳制民众思想,操控傀儡政权,实现将东北地区在文化上与中国母体彻底剥离等政治目的,日伪当局先后颁布了大量相关法令并辅之以各种行政手段,将伪满“国家祭祀”的基本内容由初期的“尊礼崇儒”调整为中后期的“惟神之道”,并将其纳入日本“国家神道”体系,最终实现了伪满“国家祭祀”的日本化。伪满“国家祭祀”的整体变迁大致经历了三个主要阶段,即:
《中国社会历史评论》是南开大学中国社会史研究中心的学术年刊,因其所刊发的学术论文具有原创性,集学术性、前沿性、信息性于一身,被教育部评为CSSCI来源集刊。《中国社会历史评论》第八卷已经由天津古籍出版社于2007年8月出版发行。作为主编,我感到本卷内容丰富而有特色,反映了中国社会史研究的新进展,愿意向大家推荐这部佳作。  本卷强力推出的是11篇有关疾病医疗社会史方面的论文。近年来,这一领域异军突起
古代思想史的研究往往需要以文本阐释为基础,充分理解其选择的文本是为研究的重要基础。具体到中国历史文献,字词的细微之别即能反映出思想观念的变化。这就要求我们借助传统“小学”的方法,对古代思想史的文本进行较为细致的文字甄别、文意辨析。在这一方面,《经义述闻》为我们提供了很好的例子。《经义述闻》虽以小学为主,但其中对很多字词的辨析涉及较大的思想观念问题。在此试举两例说明。  《左传》僖公五年谓“神必据我