本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】专题 | 脑芯编: 为什么 GPU 是 AI 的神外挂?

时间:2017-01-22 22:12来源:668论坛 作者:118开奖 点击:
一遇泰坦误终身 或许林燕妮自己也没有想到 写了一辈子的文 最后能和自己老公的「沧海一声笑」 一起流过的岁月的, 是那篇 《一遇杨过误终生》 今天的主题,叫做「一遇到泰坦误

一遇泰坦误终身

或许林燕妮自己也没有想到

写了一辈子的文

最后能和自己老公的「沧海一声笑」

一起流过的岁月的,

是那篇

《一遇杨过误终生》

  今天的主题,叫做「一遇到泰坦误终身」。你会问,泰坦是什么?Titan X -- NVIDIA Pascal 架构下的终极显卡(Graphics Card)产品。显卡?!这不是一个人工智能硬件的专栏,直播,我又不玩游戏,关显卡什么事?且听小编慢慢道来。

  

wzatv:【j2开奖】专题 | 脑芯编: 为什么 GPU 是 AI 的神外挂?

  在进入正文以前,我们先来回忆两个概念,其一是加速器(你还记得挂在 ARM core 边上的加速协处理器么?见「脑芯编(三)」),其二是单指令多数据体系结构(SIMD,见「脑心编(四)」)。在人工智能大热之前,这两个方案就已经广泛地出现在我们的系统中,这个系统叫做「显卡」。那是一个显卡还在用来的投影(shadow)和渲染(rendering)的年代。除了高等级游戏玩家,普通人的电脑常有一个抬不起头的配置——「集显」。

  显卡主要用于大规模的同一类型计算,比如向量积和一些简单的非线性操作。听起来有没有很熟悉?神经元也是同一类操作。也就是说在神经网络大红之前,显卡已经在类似硬件上默默耕耘了数十年。但是,十年前没有人会想到上帝会掉一个馅饼到 NVIDIA 额头上,让它成为了比肩 intel 的超强处理器帝国。原因有二,其一是显卡是最能体现体系结构中协处理架构和 SIMD 的硬件。除此之外,显卡还有一个法宝,称为——多线程并行(Multi-thread parallelism)。

  最远的距离,是你的芯里没有我

  张小娴说「世间最遥远的距离,不是生与死,天与地,是我在你面前,你却不知道我爱你。」而在数据处理器里,也有一个如此「遥远」的距离——存储数据访问失败。

  故事起源于计算机体系结构中存储的分级结构(memory hierarchy)。一般,一台处理器的数据存储的位置,以离计算单元的位置排序,包括寄存器表(Register File),高速缓存(cache),内存(DDR Memory)和硬盘(SSD/Hard Disk)。非常容易理解地,离计算单元越远,访问延时越长,但是可用作存储的空间越大。

  

wzatv:【j2开奖】专题 | 脑芯编: 为什么 GPU 是 AI 的神外挂?

  那问题是,什么样的数据,该放在 Cache 里呢?简单的答案,是不断被访问的数据。那万一不断被访问数据不在 Cache 里呢?那处理器就要派出一个信号兵,历经千山万水,走到 disk 来求得一本「真经」再带回处理器开始计算。那这段时间里,处理器单元在干什么呢?

  等。

  就像那些只能把爱存在心底的痴人。

  解药,只能是爱上另一个人。

  用计算机体系结构的话说,是执行——

  另一个进程

  我们在讲到 VLWI(超长指令集)谈到过说,其实不同类型的执行电路是相互独立的。对于一个包含 load/store 指令和 ALU 计算指令的处理器,完全可以同时执行 load/store 和计算,只要两者间的数据不存在依赖关系。即,处理单元在派出信号兵的时候,仍然也在高效率的计算。那么,我们把这两个没有数据依赖关系的指令称为它们分别属于两个进程(thread)。

  对于这样的操作,处理器在传统体系架构往外还需要支持一个叫「scheduler」的发射器,用于分配当前处理器的不同模块分别处于哪一个进程中。显然地,就每个进程而言,其寄存器是独立的。共享的只是操作实现单元。

  GPU 就是在这一概念下产生。下图是一个典型的 GPU 多核单元。可以看到,直播,他有 32 个处理单元,称为 CUDA Core,每个 CUDA Core 里有一个浮点计算单元和一个整数计算单元。16 为一队分为两组。还有 16 个 Load/Store,和四个特殊函数计算单元(SFU, Special Function Unit)用来计算三角函数之类的。

  

wzatv:【j2开奖】专题 | 脑芯编: 为什么 GPU 是 AI 的神外挂?

  这样,这个处理器就可以以 16 为单位,在同一实现执行一条指令,即 SIMD。除此之外,LD/ST 与两组 CUDA Core 可以按照不同的指令同时对于不同的 Thread 进行不同的操作。至于当前情况对哪个 Thread 进行操作,由 Scoreboard(记分牌)和 Warp Scheduler 共同决定。因此,cuda 是不用等 ld/st 操作的。

wzatv:【j2开奖】专题 | 脑芯编: 为什么 GPU 是 AI 的神外挂?

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容