其他分享
首页 > 其他分享> > 自动驾驶网络大学课程W8L2 ML硬件架构II

自动驾驶网络大学课程W8L2 ML硬件架构II

作者:互联网

第一个Week 8的第二堂课 Week 8 Lesson 2, 后面还有第二个Week 8.

本节课程的材料是一篇关于Google TPU的介绍性文章,从DNN的计算需求、代码量、计算优化的介绍开始,接着介绍了TPU的起源、架构和具体实现。详细介绍了TPU的结构框图和芯片布局设计。

从TPU的架构框图看,输入输出接口是Gen3 X16的PCIe接口,通过Buffer连接到计算核心Matrix Multiply Unit上,计算的结果输出给一个累积器Accumulators中,然后再经过系统Buffer和PCIe接口输出给Host。

文章比较了TPU芯片的性能功耗比相对于GPU和CPU的优势,并将这种显著的优势归因于以下几个方面:

1)单核单线程模型,便于满足固定时延的要求。

2)TPU采用了二维大矩阵乘法单元的设计,性能远超CPU/GPU的多个一维乘法器单元。

3)Systolic Unit(收缩单元?)二维矩阵设计,减少寄存器访问。

4)采用8bit整形数设计。

5)去掉了CPU/GPU中对于DNN计算不需要的功能,简化了设计。

TPU芯片的出现,是人类计算机技术发展的一个里程碑,大大地推动了异构计算的发展。

文章配图里面每颗TPU芯片表面的水冷散热设计很漂亮,工程设计的完美展示。

 

   

标签:Week,W8L2,芯片,ML,II,TPU,设计,GPU,CPU
来源: https://www.cnblogs.com/qiuzhiqiuzhi/p/16147096.html