报码:【j2开奖】专题 | 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）(5)_本港台直播_J2开奖直播

AlphaGo 是使用深度 CNN 技术、监督学习、强化学习和蒙特卡洛树搜索（MCTS）(Browne et al., 2012; Gelly et al., 2012) 打造的。AlphaGo 的工作分成了两个阶段：神经网络训练流程和 MCTS。其训练流程阶段包括根据专家的走子训练一个监督学习策略网络、快速部署策略、强化学习策略网络和强化学习价值网络。

13-21：强化学习的应用介绍

这几节介绍了强化学习的不同类型的应用，这里简单给出目录，详情请查阅原论文。

13 机器人学

14 口语对话系统

15 机器翻译

16 文本序列预测

17 神经架构设计

18 个性化网络服务

19 医疗保健

20 金融

21 音乐生成

22 未来工作

下面我们列出了上面的概述中没有讨论到的有趣的和/或重要的研究方向/论文，希望能够为有兴趣进一步研究它们的人提供信息入口。这也将是我们未来工作的一部分。

? 理解机器学习（understanding deep learning）, Daniely et al. (2016); Li et al. (2016b); Zhang et al. (2017)

? 探索（exploration）如：Stadie et al. (2015); Bellemare et al. (2016); Kulkarni et al. (2016); Osband et al. (2016); Nachum et al. (2017)

? 基于模型的学习（model-based learning）如：Oh et al. (2015); Gu et al. (2016b)

? 回溯算法（retrace algorithm）, Munos et al. (2016)

? 预测（predictron）, Silver et al. (2017)

? 分层强化学习（hierarchical RL）如：Kulkarni et al. (2016); Vezhnevets et al. (2016); Tessler et al. (2017); Florensa et al. (2017)

? 迁移/多任务强化学习（transfer/multitask RL）如： Maurer et al. (2016); Mo et al. (2016); Parisotto et al. (2016), NIPS 2015 Transfer and Multi-Task Learning: Trends and New Perspectives Workshop

? 零次/一次性学习（zero/one-shot learning）如：Vinyals et al. (2016); Lake et al. (2015); Johnson et al. (2016)

? 半监督强化学习（semi-supervised RL）如：Finn et al. (2017)

? deep symbolic RL, Garnelo et al. (2016)

?内在动机（intrinsic motivation）如：Stadie et al. (2015); Kulkarni et al. (2016); Oudeyer et al. (2016)

? 超参数学习（hyperparameter learning）如：Andrychowicz et al. (2016)

? 信息提取（information extraction）如：Narasimhan et al. (2016)

? 文本博弈（text games）如：He et al. (2016b); Narasimhan et al. (2015)

? 语言树结构学习（language tree-structure learning）如：Yogatama et al. (2017)

? 问答系统（question answering）如：Shen et al. (2016); Trischler et al. (2016)

? 大型动作空间（large action space）如：Dulac-Arnold et al. (2016); He et al. (2016c)

? 适应性规范化（adaptive normalization）, van Hasselt et al. (2016b)

? 自动驾驶载具（self-driving vehicle）如：Bojarskietal.(2016),NIPS 2016 Workshop on Machine Learning for Intelligent Transportation Systems

? 智能电网（smart grid）如： Wen et al. (2015b)

? 通信网络（communication networks）如： Mestres et al. (2016)

? 物理实验（physics experiments）如： Denil et al. (2016)

? 深度概率编程（deep probabilistic programming）, Tran et al. (2017)

? 深度博弈学习（deep learning games）, Schuurmans and Zinkevich (2016)

? 程序学习（program learning）如：Reed and de Freitas (2016)

? 量子强化学习（quantum RL）如：Crawford et al. (2016), NIPS 2015 Workshop on Quantum Machine Learning

23 资源

我们列出了一些用于深度强化学习的资源，当然并不能做到完全。

23.1 书籍

? Richard S. Sutton 和 Andrew G. Barto 所著的毫无疑问的和直观的强化学习书 (Sutton and Barto, 2017)

? 简明和理论性的《Algorithms for Reinforcement Learning》，作者：Csaba Szepesv´ari (Szepesv´ari, 2010)

? 一本关于近似动态编程的理论书籍，作者：Dimitri P.Bertsekas(Bertsekas, 2012)

? 一本面向运筹学的书《Approximate Dynamic Programming》，作者：WarrenB. Powell (Powell, 2011)

?《Deep Learning》，作者：IanGoodfellow, Yoshua Bengio 和 Aaron Courville (Goodfellow et al., 2016)

23.2 课程

? David Silver, 强化学习（Reinforcement Learning）, 2015, 幻灯片：goo.gl/UqaxlO，视频：goo.gl/7BVRkT

? Sergey Levine, John Schulman and Chelsea Finn, CS 294: 深度强化学习（Deep Reinforcement Learning）2017 年春季课程,

? Charles Isbell, Michael Littman and Pushkar Kolhe, Udacity: 机器学习：强化学习（Machine Learning: Reinforcement Learning）, goo.gl/eyvLfg

? 李飞飞、 Andrej Karpathy 和 Justin Johnson, CS231n: 用于视觉识别的卷积神经网络（Convolutional Neural Networks for Visual Recognition）,

? Richard Socher, CS224d: 用于自然语言处理的深度学习（Deep Learning for Natural Language Processing）,

? Nando de Freitas, 深度学习课程（Deep Learning Lectures）, https://www.youtube.com/user/ProfNandoDF

23.3 教程

? David Silver, 深度强化学习（Deep Reinforcement Learning）, ICML 2016

? Pieter Abbeel 和 John Schulman, 通过策略优化的深度强化学习（Deep Reinforcement Learning Through Policy Optimization）, NIPS 2016

? 吴恩达，使用深度学习开发人工智能应用的基本要点（Nuts and Bolts of Building Applications using Deep Learning）, NIPS 2016

? John Schulman，深度强化学习研究的基本要点（The Nuts and Bolts of Deep Reinforcement Learning Research），深度强化学习研讨会, NIPS 2016

? John Schulman, 深度强化学习（Deep Reinforcement Learning）, Deep Learning School, 2016

? Pieter Abbeel, Deep Reinforcement Learning, Deep Learning Summer School, 2016; abbeel deep reinforcement/

? David Silver, Deep Reinforcement Learning, 第二届强化学习与决策多学科会议（RLDM）, Edmonton 2015; silver reinforcement learning/

(责任编辑：本港台直播)