本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)(5)

时间:2017-01-28 18:03来源:本港台直播 作者:开奖直播现场 点击:
AlphaGo 是使用深度 CNN 技术、监督学习、强化学习和蒙特卡洛树搜索(MCTS)(Browne et al., 2012; Gelly et al., 2012) 打造的。AlphaGo 的工作分成了两个阶段:神经网

AlphaGo 是使用深度 CNN 技术、监督学习、强化学习和蒙特卡洛树搜索(MCTS)(Browne et al., 2012; Gelly et al., 2012) 打造的。AlphaGo 的工作分成了两个阶段:神经网络训练流程和 MCTS。其训练流程阶段包括根据专家的走子训练一个监督学习策略网络、快速部署策略、强化学习策略网络和强化学习价值网络。

13-21:强化学习的应用介绍

这几节介绍了强化学习的不同类型的应用,这里简单给出目录,详情请查阅原论文。

13 机器人学

14 口语对话系统

15 机器翻译

16 文本序列预测

17 神经架构设计

18 个性化网络服务

19 医疗保健

20 金融

21 音乐生成

22 未来工作

下面我们列出了上面的概述中没有讨论到的有趣的和/或重要的研究方向/论文,希望能够为有兴趣进一步研究它们的人提供信息入口。这也将是我们未来工作的一部分。

? 理解机器学习(understanding deep learning), Daniely et al. (2016); Li et al. (2016b); Zhang et al. (2017)

? 探索(exploration)如:Stadie et al. (2015); Bellemare et al. (2016); Kulkarni et al. (2016); Osband et al. (2016); Nachum et al. (2017)

? 基于模型的学习(model-based learning)如:Oh et al. (2015); Gu et al. (2016b)

? 回溯算法(retrace algorithm), Munos et al. (2016)

? 预测(predictron), Silver et al. (2017)

? 分层强化学习(hierarchical RL)如:Kulkarni et al. (2016); Vezhnevets et al. (2016); Tessler et al. (2017); Florensa et al. (2017)

? 迁移/多任务强化学习(transfer/multitask RL)如: Maurer et al. (2016); Mo et al. (2016); Parisotto et al. (2016), NIPS 2015 Transfer and Multi-Task Learning: Trends and New Perspectives Workshop

? 零次/一次性学习(zero/one-shot learning)如:Vinyals et al. (2016); Lake et al. (2015); Johnson et al. (2016)

? 半监督强化学习(semi-supervised RL)如:Finn et al. (2017)

? deep symbolic RL, Garnelo et al. (2016)

?内在动机(intrinsic motivation)如:Stadie et al. (2015); Kulkarni et al. (2016); Oudeyer et al. (2016)

? 超参数学习(hyperparameter learning)如:Andrychowicz et al. (2016)

? 信息提取(information extraction)如:Narasimhan et al. (2016)

? 文本博弈(text games)如:He et al. (2016b); Narasimhan et al. (2015)

? 语言树结构学习(language tree-structure learning)如:Yogatama et al. (2017)

? 问答系统(question answering)如:Shen et al. (2016); Trischler et al. (2016)

? 大型动作空间(large action space)如:Dulac-Arnold et al. (2016); He et al. (2016c)

? 适应性规范化(adaptive normalization), van Hasselt et al. (2016b)

? 自动驾驶载具(self-driving vehicle)如:Bojarskietal.(2016),NIPS 2016 Workshop on Machine Learning for Intelligent Transportation Systems

? 智能电网(smart grid)如: Wen et al. (2015b)

? 通信网络(communication networks)如: Mestres et al. (2016)

? 物理实验(physics experiments)如: Denil et al. (2016)

? 深度概率编程(deep probabilistic programming), Tran et al. (2017)

? 深度博弈学习(deep learning games), Schuurmans and Zinkevich (2016)

? 程序学习(program learning)如:Reed and de Freitas (2016)

? 量子强化学习(quantum RL)如:Crawford et al. (2016), NIPS 2015 Workshop on Quantum Machine Learning

23 资源

我们列出了一些用于深度强化学习的资源,当然并不能做到完全。

23.1 书籍

? Richard S. Sutton 和 Andrew G. Barto 所著的毫无疑问的和直观的强化学习书 (Sutton and Barto, 2017)

? 简明和理论性的《Algorithms for Reinforcement Learning》,作者:Csaba Szepesv´ari (Szepesv´ari, 2010)

? 一本关于近似动态编程的理论书籍,作者:Dimitri P.Bertsekas(Bertsekas, 2012)

? 一本面向运筹学的书《Approximate Dynamic Programming》,作者:WarrenB. Powell (Powell, 2011)

?《Deep Learning》,作者:IanGoodfellow, Yoshua Bengio 和 Aaron Courville (Goodfellow et al., 2016)

23.2 课程

? David Silver, 强化学习(Reinforcement Learning), 2015, 幻灯片:goo.gl/UqaxlO,视频:goo.gl/7BVRkT

? Sergey Levine, John Schulman and Chelsea Finn, CS 294: 深度强化学习(Deep Reinforcement Learning)2017 年春季课程,

? Charles Isbell, Michael Littman and Pushkar Kolhe, Udacity: 机器学习:强化学习(Machine Learning: Reinforcement Learning), goo.gl/eyvLfg

? 李飞飞、 Andrej Karpathy 和 Justin Johnson, CS231n: 用于视觉识别的卷积神经网络(Convolutional Neural Networks for Visual Recognition),

? Richard Socher, CS224d: 用于自然语言处理的深度学习(Deep Learning for Natural Language Processing),

? Nando de Freitas, 深度学习课程(Deep Learning Lectures), https://www.youtube.com/user/ProfNandoDF

23.3 教程

? David Silver, 深度强化学习(Deep Reinforcement Learning), ICML 2016

? Pieter Abbeel 和 John Schulman, 通过策略优化的深度强化学习(Deep Reinforcement Learning Through Policy Optimization), NIPS 2016

? 吴恩达,使用深度学习开发人工智能应用的基本要点(Nuts and Bolts of Building Applications using Deep Learning), NIPS 2016

? John Schulman,深度强化学习研究的基本要点(The Nuts and Bolts of Deep Reinforcement Learning Research),深度强化学习研讨会, NIPS 2016

? John Schulman, 深度强化学习(Deep Reinforcement Learning), Deep Learning School, 2016

? Pieter Abbeel, Deep Reinforcement Learning, Deep Learning Summer School, 2016; abbeel deep reinforcement/

? David Silver, Deep Reinforcement Learning, 第二届强化学习与决策多学科会议(RLDM), Edmonton 2015; silver reinforcement learning/

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容