大脑有 10^14 的神经突触,而我们的生命只有 10^9 秒。我们拥有的参数的量远超数据的量。这就激发了一种想法,即由于知觉输入(包括本体感觉)是唯一能每秒得到 10^5 个维度的约束的地方,我们必须要做很多的无监督学习。 预测人类提供的标记是不足够的 预测一个价值函数也不足够
如果把“智能”(intelligence)比作一个蛋糕,那么无监督学习就是蛋糕本体,监督学习是蛋糕上的糖霜,而增强学习是蛋糕上的樱桃。我们知道如何得到糖霜和樱桃,j2直播,但不知道怎样做蛋糕。
在 FAIR 使用强化学习训练系统玩游戏的例子
顺便给刚刚开源的 打一下广告
有趣的是,在LeCun讲解 Sutton例子时,Sutton 本人就在下面听(最后排最右边)。来源:Twitter
经典的基于模型的优化控制 用初始控制序列模拟世界 调整控制序列,通过梯度下降优化对象 在上世纪 50 年代,通过控制论,发明了 BP 算法 智能系统的架构
AI 系统 = 会学习的智能体 + 不可变对象
AI 系统 = 会预测 + 会规划= 能够进行推理
我们需要的是基于模型的强化学习系统 智能体的关键在于能够预测 要进行预测,就必须对世界进行模拟,至少对物体功能进行一定程度上的预测 让机器学习会预测世界的模型
学习物理:物理网络
从文本中推断世界的状态:使用实体RNN
具有记忆模块的增强神经网络 递归神经网络不能长久地记忆,需要一个额外的记忆模块 递归网络的记忆时间不长:大脑皮层能维持的记忆时间只有 20 秒 我们需要“海马体”(一个单独的记忆模块) LSTM [Hochreiter 1997] 记忆网络 [Weston et 2014] (FAIR),关联记忆 Stack RNN [Joulin & Mikolov 2014] (FAIR) 神经图灵机 [Graves 2014] 可微分神经计算机 [Graves 2016]
差分记忆
记忆增强递归网络
实体RNN 保持对世界当前现状的估计 每个模块都是一个带有“记忆”的递归网络 每次输入都当值记忆单元更新
无监督学习
基于能量的非监督学习,能量函数
塑造能量函数的七大策略 构建机器使低能物质的容量恒定 使数据点能量下降,其余上升 使数据点能量下降,选定位置能量上升 使梯度最小,数据点周围曲率最大 训练动态系统 利用正则化项限制低能量的空间容量 假如 E(Y) = IIY - G(Y)II^2,使 G(Y) 尽量“恒定”
对抗训练
基于能量的非监督学习
对抗训练:可训练的对象函数
在图像识别上的应用
使用对抗训练,对视频内容进行预测
人类的大脑是“预测机器” 我们能够把机器训练得能够预测未来吗? 在这方面,使用“对抗训练”取得了一些进展 但是,离成功或者说完善的解决方案,还要十分遥远的距离
使用对抗网络进行视频内容预测实例
【在新智元微信公众号回复1207,可下载全部75页PPT】 编译来源: https://medium.com/intuitionmachine/predictive-learning-is-the-key-to-deep-learning-acceleration-93e063195fd0#.7ia0cj6ip LeCun NIPS 2016 演讲 责编:WF 新智元招聘 职位 运营总监 职位年薪:36- 50万(工资+奖金) 工作地点:北京-海淀区 所属部门:运营部 汇报对象:COO 下属人数:2人 年龄要求:25 岁 至 35 岁 性别要求:不限 工作年限:3 年以上 语 言:英语6级(海外留学背景优先) 职位描述 负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向 擅长开拓市场,并与潜在客户建立良好的人际关系 深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态 主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力 带领团队完成营业额目标,并监控管理项目状况 负责公司平台运营方面的战略计划、合作计划的制定与实施 岗位要求 大学本科以上学历,硕士优先,要求有较高英语沟通能力 3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作 对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解 具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力 (责任编辑:本港台直播) |