其他分享
首页 > 其他分享> > 自动驾驶网络大学课程W7L2 ML硬件架构

自动驾驶网络大学课程W7L2 ML硬件架构

作者:互联网

本周的课程只有一份材料,一般是一周两堂课的,这周只有一堂课。

按一周两堂课的频率,要真正理解每周课程的材料,需要大量的文献阅读才能领会材料讨论的问题。课程材料的选择每份材料都是选了一个研究的热点,内容跨度很大,绝对是高强度的学习,名校果然不同凡响。

说回来,本周课程的材料是一种芯片设计的架构,通过设计可编程的处理单元和内存单元,通过对这些单元的编程可以匹配并行处理的pattern,相当于对可以识别出可以并行处理的部分,并卸载到这颗芯片上去,起到加速的效果。

文章说和FPGA相比,可编程性是对处理单元和内存单元的编程,而FPGA的编程性是基于每个LUT结构,比较复杂和耗时,这颗芯片相当于半定制的结构。

处理单元和内存单元组成网状结构,处理单元采用SIMD结构,内存包括片上内存和片外内存分别存储不同时效的数据。

文章还是异构计算的思路,需要软件配合来识别出可以并行的模式pattern,并将计算任务编译到该芯片中去。

结论:在本文中,我们描述了Plasticine,一种新的可重构架构,它可以有效地执行由并行模式组成的稀疏和密集应用程序。我们确定了捕获稀疏和密集算法所需的关键计算模式,并描述了能够以流水线、向量化的方式执行并行模式的粗粒度模式和内存计算单元。这些单元利用了我们编程模型中关于层次并行性、局部性和内存访问模式的信息。然后,我们使用设计空间探索来指导Plasticine架构的设计,并创建一个完整的软硬件编程堆栈,将应用程序映射到中间表示,然后在Plasticine上执行。我们发现,在113 mm2的区域预算中,与FPGA相比,Plasticine的性能提高了95倍,每瓦特性能提高了77倍。

 

 

标签:架构,处理单元,ML,编程,Plasticine,课程,内存,W7L2,单元
来源: https://www.cnblogs.com/qiuzhiqiuzhi/p/16137910.html