本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【组图】重磅论文 | 机器学习硬件概览:从算法到架构的挑战与机遇(5)

时间:2016-12-24 17:54来源:668论坛 作者:118KJ 点击:
大部分数据传输都发生在内存和处理元件(PE/processing element)以及传感器和处理元件之间。在这一章节,我们将讨论这可以如何通过混合设计的电路设计来

大部分数据传输都发生在内存和处理元件(PE/processing element)以及传感器和处理元件之间。在这一章节,我们将讨论这可以如何通过混合设计的电路设计来解决。但是,电路的非理想因素(circuit non-idealities)也应该被考虑到算法设计中;这些电路可以从第六节中讨论的精度减少的算法中受益。除此之外,因为训练通常是通过数字(digital)的方式进行的,ADC 和 DAC 的开销应该在系统评估时被考虑进来。

尽管空间架构的改进让存储和计算的位置更近了(即集成到处理元件中),但要将计算和存储本身整合到一起,还需要一些努力。比如说,在 [67] 中,分类被嵌入到了 SRAM 中。特别地,其字线(WL/wordline)是由一个使用了一个 DAC 的 5 位特征向量驱动的,同时其位单元(bit-cells)存储了二元权重 ±1。位单元的电流实际上是特征向量的值和存储在位单元中的权重值的乘积;其来自列的电流被加到一起以对位线放电(BL 或 BLB/bitline)。然后一个比较器被用于比较结果得到的点积和一个阈值——特别是差分位线的符号阈值(sign thresholding)。因为位单元的变化,这可被认为是一个弱分类器,而且需要 boosting 来将这些弱分类器组合起来形成一个强分类器 [68]。这种方法比从 SRAM 进行 1 位权重读取要节能 12 倍。

最近的研究工作也提出了使用混合信号电路来减少 MAC 的计算成本。[69] 表明,使用开关电容器来执行 MAC 可以比数字电路能效更好,不管是在 ADC 还是 DAC 方面。因此,矩阵乘法可以像 [70] 提出的那样被整合到 ADC 中,其中用于 Adaboost 分类的乘法中最显著的部分是使用开关电容器以 8 位逐次逼近格式(8-bit successive approximation format)执行的。这在 [71] 中进行了扩展,使其不仅可以执行乘法,还能在模拟域(analog domain)上进行累加。据估计,3 位和 6 位就足以分别表征权重和输入向量了。这能让计算更接近传感器,并可以将 ADC 转换的数量减少 21 倍。

要进一步减少来自传感器的数据传输,[72] 提出在传感器的模拟域中执行整个卷积层(包括卷积、最大池化和量化)。类似地,在 [73] 中,整个 HOG 特征可以在模拟域中计算,可将传感器带宽减少 96.5%.

八、高级技术中的机遇

在此章节,我们将讨论如何使用高级技术取得上一章节所说的数据传输问题。在参考文献 [47] 和 [74] 中分别提到的使用 embedded DRAM (eDRAM) 和 Hyper Memory Cube (HMC) 这样的高级存储技术来减少 DNN 中权重的能量访问成本(energy access cost)。

在直接将乘法(multiplication)集成到高级非易失性存储上已经有了大量研究,使用他们作为电阻元件。具体执行乘法时,其中电导设为权重,电压作为输入,电流作为输出。其他工作就是把克希霍夫电流定律的电流值合计起来。在 [75] 中,忆阻器(memristor)被用于一个 16 位的点积运算的计算,其中 8 个忆阻器每个存储 2 位;每个忆阻器执行 1 位 X2 位的乘法计算,那么 16 位的输入需要 16 次循环来完成。在 [76] 中,ReRAM 用于计算 3 位输入和 4 位加权的乘积。与混合信号电路类似,其运算的精确都很有限,同时必须考虑把在 ADC 和 DAC 的转换开销(conversion overhead)计入总成本,特别是当在数字域中训练权重时。可以通过直接在模拟域中训练来避免转换开销,如 [77] 中制造的忆阻器阵列那样。

最后,将计算嵌入传感器本身或许具有可行性。对于从传感器读取数据的带宽占了大部分系统能耗的图像处理来说部分有用。比如,一个 ASP 传感器能被用于计算输入地图,j2直播,随着压缩而以十倍的比例减少传感器带宽。一个输出梯度带宽也能减少计算和后续处理引擎的能耗。

九、手工提取的特征 VS 机器学习的特征

相比于机器学习的特征,如通过 DNN 学习的特征,手工提取特征的方法有更高的能量效率是以牺牲准确率为代价的。对于手工提取的特征来说,其计算量更少并且支持位宽减少。不仅如此,手工提取的方法需要更少的数据传输,因为特征的权重值不是必须的。两种方法的分类权重都是可程控的。图 12 中比较了 HOG 特征提取与 AlexNet 中卷积层、VGG-16 的卷积层的能量消耗,数据来源于在参考文献 [51] 和 [48] 中制作的 65nm 芯片上的性能表现。需要说明的是 HOG 特征提取与视频压缩(实时的高清视频每像素 1 纳焦)的能量消耗差不多,因此 HOG 特征是一个很好的基准来确定近传感器能量消耗的可接受值;但是,DNN 目前需要消耗比 HOG 多几个数量级的能量。我们希望在这篇论文中所强调的一些可以作为设计契机的地方将能够缩小两种方法之间的能量消耗差距。

  

wzatv:【j2开奖】重磅论文 | 机器学习硬件概览:从算法到架构的挑战与机遇

图 12. 能量 VS 准确率:手工提取特征和机器学习特征之间能量对比准确率的权衡比较。

十、总结

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容