报码:【j2开奖】专题 | 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）(2)_本港台直播_J2开奖直播

特别地，我们将在 23 节中列举一系列关于强化学习的资源，包括图书、在线课程、教程、会议、期刊、研讨会乃至博客等。如果非要选择唯一一个推荐的强化学习的资源，那么应该是 Sutton 教授的强化学习书（RL Book，Sutton and Barto，2017，第二版正在编辑中）。它覆盖了强化学习的基础知识，并介绍了它最新的进展，包括深度 Q 网络、AlphaGo、梯度策略方法（Policy Gradient Methods）及在心理学与神经科方面的进展。对深度学习而言，则可以选择 Goodfellow 等人的书（2016）。

2 背景知识

在这一节中，我们将会简要介绍在深度学习（Sutton and Barto，2017）与深度学习（Goodfellow et al., 2016）方面的基础知识与概念。

2.1 深度学习

2.2 强化学习

2.3 测试平台

街机学习环境（Arcade Learning Environment，ALE，Bellemare et al., 2013）是一个由 2600 个 Atari 游戏构成的用于研发及评估 AI 的框架。

DeepMind 团队则发布了它的第一人称视角 3D 游戏平台 DeepMind Lab（Beattie et al., 2016）。DeepMind 及暴雪会合作以发布星际争霸 2 的人工智能研究环境（goo.gl/Ptiwfg）。

OpenAI Gym（https://gym.openai.com/）是一个用于开发强化学习算法的工具包。它由一系列环境构成，包括了 Atari 游戏及模拟的机器人构成，以及一个用于比较及复现结果的网站。

OpenAI Universe（https://universe.openai.com/）被用于将任一程序转换到一个 Gym 环境。Universe 已经集成了许多的环境，包括 Atari 游戏、flash 游戏、如 Mini World of Bit Sand 这样的浏览器任务。最近，侠盗猎车手 5（GTA5）也已经被加入到 Universe 中来帮助模拟自动驾驶车辆。

FAIR TorchCraft（Synnaeve et al., 2016）是一个为如星际争霸这样实时战略类（RTS）游戏开发的库。

ViZDoom 是一个基于《毁灭战士（Doom）》游戏的为研究视觉强化学习的研究平台。

TORCS 是一个赛车比赛驾驶模拟器（Bernhard Wymann et al., 2014）。

MuJoCO（Multi-Joint dynamics with Contact）是一个物理引擎，参见：

Duan et al., 2016 为连续控制任务给出了一个跑分平台，开源代码参见：https://github.com/openai/rllab

Nogueira and Cho（2016）展示了 WebNav 挑战，直播，来测试维基百科链接导航。

3 深度 Q 网络（DEEP Q-NETWORK）

报码:【j2开奖】专题 | 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）

算法 1：深度 Q 网络，截取自 Mnih et al. (2015)

3.1 双重 DQN（DOUBLE DQN）

3.2 优先经验回放（PRIORITIZED EXPERIENCE REPLAY）

3.3 对抗架构（DUELING ARCHITECTURE）

3.4 更多拓展

4 异步方法

报码:【j2开奖】专题 | 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）

算法 2：A3C，每个 actor-learner 线程，来自 Mnih et al. (2016)

5 策略优化

策略通常是随机的。然而在 2014 年，Silver et al. (2014) 引入确定性策略梯度（DPG）来有效估计策略梯度。Lillicrap et al. (2016) 用深度神经网络扩展了 DPG。同时我们介绍了几份近期成果，包括引导策略搜索（Guided Policy Search，Levine et al.,2016a）、信赖域策略优化（Trust Region Policy Optimization，Schulman et al.,2015）、基准测试结果（Duan et al., 2016）以及策略梯度与 Q 学习（O'Donoghue et al., 2017）。

5.1 确定性策略梯度

5.2 深度确定性策略梯度

5.3 引导策略搜索

5.4 信赖域策略优化

5.5 基准测试结果

Duan et al. (2016) 提出了连续控制任务的基准，包括了一些经典任务（如车柱）、具有极大状态与动作空间的任务（如 3D 人形运动）、部分观察任务、层次结构任务，并实施了许多算法，包括批处理算法：REINFORCE 算法、截断性自然策略梯度（TNPG）、奖励加权回归（RWR）、相对熵策略搜索（REPS）、信赖域策略优化（TRPO）、交叉熵方法（CEM）、自适应协方差矩阵进化策略（CMA-ES）; 也包括在线算法：深度确定性策略梯度（DDPG）；还有批处理算法的重复性变体。开源地址：https://github.com/openai/rllab

(责任编辑：本港台直播)