本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【组图】重磅论文 | 机器学习硬件概览:从算法到架构的挑战与机遇(3)

时间:2016-12-24 17:54来源:668论坛 作者:118KJ 点击:
最后,训练需要大量标签数据(特别是 DNNs)和计算(计算反向传播的多次迭代,判定权重值)。有人正在研究使用 CPU、GPU、 FPGA 和 ASIC 在云端进行训练。

最后,训练需要大量标签数据(特别是 DNNs)和计算(计算反向传播的多次迭代,判定权重值)。有人正在研究使用 CPU、GPU、 FPGA 和 ASIC 在云端进行训练。

不过,这超出了本文范围。目前,最先进的 DNNs 所耗费的能量比其他形式的嵌入处理(比如视频压缩)要高出几个数量级。我们必须利用多种硬件设计所带来的机遇,解决所有这些问题并减少能耗鸿沟。

五、 结构中的机遇

  

wzatv:【j2开奖】重磅论文 | 机器学习硬件概览:从算法到架构的挑战与机遇

图 6:高度并行的计算范式

A. CPU 和 GPU 平台

CPU 和 GPU 使用时间架构(比如 SIMD 或 SIMT)来并行执行 MAC。所有的 ALU 都共享同一个控制和存储(寄存器文件)。在这些平台上,所有的分类都由一个矩阵乘法表征。深度神经网络中的卷积层也能够用 Toeplitz 矩阵映射到一个矩阵乘法上。有专为 CPU 和 GPU 设计的软件库能用来优化矩阵乘法。该矩阵乘法按照更高层上的几兆字节的顺序平铺到这些平台的存储层次结构上。

B. 加速器(Accelerators)

加速器提供了优化数据传输(比如数据流)以最小化来自昂贵的分级存储器体系(如图 7)访问。特别是,对于 DNNs,我们调查了采用了三种数据再使用形式的数据流(卷积、滤波器和图像)。我们采用了一种空间结构(图 6),每个 ALU 处理元素(PE)带有本地存储(大约 0.5-1.0KB) 以及一个共享存储器(全局缓冲器),近 100-500KB。全局缓冲器与芯片外存储器(比如 DRAM)通讯。可以在使用了一个 NoC 的 PEs 之间进行数据传输,以减少对全局缓冲器以及芯片外存储器的访问。三种类型的数据传输包括输入像素、滤波器权重和部分和(即像素和权重的乘积),它们被累积起来用于输出。

  

wzatv:【j2开奖】重磅论文 | 机器学习硬件概览:从算法到架构的挑战与机遇

图 7. 分层级存储器和数据传输能耗

近期研究已经提出了一种 DNNs 加速方案,不过,很难直接比较因为实现和设计选择不同所导致的表现上的差异。图 8 可被用于分类现有的基于各自数据处理特征的 DNN 数据流:

  

wzatv:【j2开奖】重磅论文 | 机器学习硬件概览:从算法到架构的挑战与机遇

图 8:DNNs 数据流

权重固定(Weight stationary,WS):在该 PE 上,权重存储在 register file 中,并且保持平稳,以尽量减少权重移动成本(图.7(a))。输入与局部和必须通过空间阵列和全局缓存。可看 [36-41] 中的例子。

输出固定(Output stationary,OS):在该 PE 上,输出存储在 register file 中,并且保持平稳,以尽量减少局部和的移动成本(图.7(b))。输入与权重必须通过空间阵列和全局缓存。

本地不重用(No local reuse,NLR):从能量((pJ/bit))的角度看虽然小的 register file 有效率,但是从区域((µm2 /bit))来说,它们的效率就不高了。为了最大化存储功用,同时最小化片外存储器带宽,没有将本地存储分配给 PE,而是将所有区域分配给全局缓冲区以增加其容量(图.7(c))。代价是会增加空间阵列上的流量及对于所有数据类型的全局缓冲。参见 [45-47] 中的例子。

行固定(Row stationary,RS):为了增加所有类型数据(权重、像素、局部和)的 reuse,提出了一个行固定的方法 [35]。一行滤波器卷积保持固定在一个 PE 内,利用 PE 发掘 1-D 的 reuse。多个 1-D 行被结合在空间阵列上去彻底利用卷积 reuse(图.9),这会减少访问全局缓冲区。不同的信道和滤波器中的多个 1-D 的行被映射到每个 PE,以此来减少局部和数据传输并分别的利用过滤器 reuse。最后,跨阵列多通道允许额外的图像和过滤器 reuse 使用全局缓冲。这个数据流展示在 [48] 中。

  

wzatv:【j2开奖】重磅论文 | 机器学习硬件概览:从算法到架构的挑战与机遇

图.9 行固定数据流

在具有相同数量的 PE(256)、区域成本(area cost)和深度神经网络(AlexNet)的空间阵列上比较数据流。图 10 展示了每种方法的能耗。行固定法(The row stationary approach)比其他卷积层数据流处理方法要节能 1.4 倍到 2.5 倍,这还是基于所有数据类型都更节能的事实上考虑的。此外,启动芯片和关闭芯片的能量也考虑了进来。

  

wzatv:【j2开奖】重磅论文 | 机器学习硬件概览:从算法到架构的挑战与机遇

图.10

六、算法与硬件联合设计中的机会

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容