首页 > 其他分享> > 自动驾驶网络大学课程W8L2 ML硬件架构II

自动驾驶网络大学课程W8L2 ML硬件架构II

2022-04-14 23:33:39 作者：互联网

第一个Week 8的第二堂课 Week 8 Lesson 2，后面还有第二个Week 8.

本节课程的材料是一篇关于Google TPU的介绍性文章，从DNN的计算需求、代码量、计算优化的介绍开始，接着介绍了TPU的起源、架构和具体实现。详细介绍了TPU的结构框图和芯片布局设计。

从TPU的架构框图看，输入输出接口是Gen3 X16的PCIe接口，通过Buffer连接到计算核心Matrix Multiply Unit上，计算的结果输出给一个累积器Accumulators中，然后再经过系统Buffer和PCIe接口输出给Host。

文章比较了TPU芯片的性能功耗比相对于GPU和CPU的优势，并将这种显著的优势归因于以下几个方面：

1）单核单线程模型，便于满足固定时延的要求。

2）TPU采用了二维大矩阵乘法单元的设计，性能远超CPU/GPU的多个一维乘法器单元。

3）Systolic Unit（收缩单元？）二维矩阵设计，减少寄存器访问。

4）采用8bit整形数设计。

5）去掉了CPU/GPU中对于DNN计算不需要的功能，简化了设计。

TPU芯片的出现，是人类计算机技术发展的一个里程碑，大大地推动了异构计算的发展。

文章配图里面每颗TPU芯片表面的水冷散热设计很漂亮，工程设计的完美展示。

标签：Week,W8L2,芯片,ML,II,TPU,设计,GPU,CPU
来源： https://www.cnblogs.com/qiuzhiqiuzhi/p/16147096.html