本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)(2)

时间:2017-01-28 18:03来源:本港台直播 作者:开奖直播现场 点击:
特别地,我们将在 23 节中列举一系列关于强化学习的资源,包括图书、在线课程、教程、会议、期刊、研讨会乃至博客等。如果非要选择唯一一个推荐的

特别地,我们将在 23 节中列举一系列关于强化学习的资源,包括图书、在线课程、教程、会议、期刊、研讨会乃至博客等。如果非要选择唯一一个推荐的强化学习的资源,那么应该是 Sutton 教授的强化学习书(RL Book,Sutton and Barto,2017,第二版正在编辑中)。它覆盖了强化学习的基础知识,并介绍了它最新的进展,包括深度 Q 网络、AlphaGo、梯度策略方法(Policy Gradient Methods)及在心理学与神经科方面的进展。对深度学习而言,则可以选择 Goodfellow 等人的书(2016)。

2 背景知识

在这一节中,我们将会简要介绍在深度学习(Sutton and Barto,2017)与深度学习(Goodfellow et al., 2016)方面的基础知识与概念。

2.1 深度学习

2.2 强化学习

2.3 测试平台

街机学习环境(Arcade Learning Environment,ALE,Bellemare et al., 2013)是一个由 2600 个 Atari 游戏构成的用于研发及评估 AI 的框架。

DeepMind 团队则发布了它的第一人称视角 3D 游戏平台 DeepMind Lab(Beattie et al., 2016)。DeepMind 及暴雪会合作以发布星际争霸 2 的人工智能研究环境(goo.gl/Ptiwfg)。

OpenAI Gym(https://gym.openai.com/)是一个用于开发强化学习算法的工具包。它由一系列环境构成,包括了 Atari 游戏及模拟的机器人构成,以及一个用于比较及复现结果的网站。

OpenAI Universe(https://universe.openai.com/)被用于将任一程序转换到一个 Gym 环境。Universe 已经集成了许多的环境,包括 Atari 游戏、flash 游戏、如 Mini World of Bit Sand 这样的浏览器任务。最近,侠盗猎车手 5(GTA5)也已经被加入到 Universe 中来帮助模拟自动驾驶车辆。

FAIR TorchCraft(Synnaeve et al., 2016)是一个为如星际争霸这样实时战略类(RTS)游戏开发的库。

ViZDoom 是一个基于《毁灭战士(Doom)》游戏的为研究视觉强化学习的研究平台。

TORCS 是一个赛车比赛驾驶模拟器(Bernhard Wymann et al., 2014)。

MuJoCO(Multi-Joint dynamics with Contact)是一个物理引擎,参见:

Duan et al., 2016 为连续控制任务给出了一个跑分平台,开源代参见:https://github.com/openai/rllab

Nogueira and Cho(2016)展示了 WebNav 挑战,直播,来测试维基百科链接导航。

3 深度 Q 网络(DEEP Q-NETWORK)

  

报码:【j2开奖】专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)

算法 1:深度 Q 网络,截取自 Mnih et al. (2015)

3.1 双重 DQN(DOUBLE DQN)

3.2 优先经验回放(PRIORITIZED EXPERIENCE REPLAY)

3.3 对抗架构(DUELING ARCHITECTURE)

3.4 更多拓展

4 异步方法

  

报码:【j2开奖】专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)

算法 2:A3C,每个 actor-learner 线程,来自 Mnih et al. (2016)

5 策略优化

策略通常是随机的。然而在 2014 年,Silver et al. (2014) 引入确定性策略梯度(DPG)来有效估计策略梯度。Lillicrap et al. (2016) 用深度神经网络扩展了 DPG。同时我们介绍了几份近期成果,包括引导策略搜索(Guided Policy Search,Levine et al.,2016a)、信赖域策略优化(Trust Region Policy Optimization,Schulman et al.,2015)、基准测试结果(Duan et al., 2016)以及策略梯度与 Q 学习(O'Donoghue et al., 2017)。

5.1 确定性策略梯度

5.2 深度确定性策略梯度

5.3 引导策略搜索

5.4 信赖域策略优化

5.5 基准测试结果

Duan et al. (2016) 提出了连续控制任务的基准,包括了一些经典任务(如车柱)、具有极大状态与动作空间的任务(如 3D 人形运动)、部分观察任务、层次结构任务,并实施了许多算法,包括批处理算法:REINFORCE 算法、截断性自然策略梯度(TNPG)、奖励加权回归(RWR)、相对熵策略搜索(REPS)、信赖域策略优化(TRPO)、交叉熵方法(CEM)、自适应协方差矩阵进化策略(CMA-ES); 也包括在线算法:深度确定性策略梯度(DDPG);还有批处理算法的重复性变体。开源地址:https://github.com/openai/rllab

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容