解决拼图谜题的无监督学习的视觉展示是一个很好的例子。作者将图像拆分,并以拼图谜题的形式呈现,最后通过训练一个深度神经网络来解决这个谜题。训练得到的网络是产生最好结果的预训练网络之一。 图像块(patch)和局部(locality)的无监督学习的视觉展示的也是一个很好的例子。这里,他们使用同一张图像上的两个位置相近的图像块。从统计数据来看,这 2 个图像块反映的是同一个对象。第 3 个图像块是随机从图片的任意位置获取的,从统计数据来看,开奖,与其它 2 个图像块反映的不是同一个对象。 然后,将这 3 种图像块传入一个深度神经网络进行训练,以区分相同对象和不同对象。训练得到的网络是产生最好结果的预训练网络之一。 立体图像重建的无监督学习的视觉展示,例如通过左视图重建右视图。虽然这不是无监督学习的特有工作,但它可以使用无监督学习! 使用替代类别(surrogate category)的无监督学习的视觉展示,使用图像块来创建大量的替代类别。增强这些图像块,然后用于训练基于增强替代类别的有监督网络。这给出了无监督特征学习的最好结果之一。 使用视频的无监督学习的视觉展示,使用 LSTM 作为编码/解码器。LSTM 编码器通过运行一组视频帧(video frame)序列,atv,来生成内部图像。这个内部图像然后通过另一个 LSTM 解码器,来产生一组目标序列。为了达到无监督学习,一种方法是预测与输入序列相同的序列。另一种方式是预测未来的视频帧。 另一篇论文(MIT:Vondrick 和 Torralba)的视频有令人非常信服的结果。这项工作从 2015 年 4 月就开始了!这个思路的亮点是从视频输入来预测未来帧的图像。它使用的模型如下: PredNet PredNet 是一个用于预测视频未来帧的网络。这个网址有很好的例子:https://coxlab.github.io/prednet/ PredNet 是一个非常聪明的神经网络模型,在我们看来,它将在未来的神经网络中的发挥重要的作用。PredNet 的神经网络架构超越了单个有监督的 CNN 框架。PredNet 结合了生物启发和生物导向模型 [ 模拟人类大脑模型 ](参见论文 https://papers.nips.cc/paper/1083-unsupervised-pixel-prediction.pdf)。它使用预测编码和使用 [ 神经模型中的反馈连接 ](参见论文 )。以下是 PredNet 模型和 2 个堆叠层(stacked layer)的示例: 该模型还具有以下优点: 使用无标签数据训练! 每层纳入损失函数(loss function)计算误差 通过监视错误信号来在线学习(online-learning):当它不能正确预测输出时,它知道模型需要学习更新了 未来 未来由你创造。无监督学习是一个非常开放的主题,你可以通过以下方式做出巨大贡献: 创建一个新的无监督任务来训练神经网络,例如:解决一个谜题,对比图像块,生成图像,等等。 思考创建更好的无监督特征训练任务,例如:什么是对象以及什么是背景,立体图像的相同物体识别,视频帧的相同物体识别…… 这与人类的视觉系统的进化相似。 ©本文由机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |