"北大突破：颠覆GPU！首秀180nm制程碳纳米管TPU芯片，能效惊人，每瓦功耗下实现万亿次运算里程碑！"

2024-07-31 13:31#1 标记1

大家都知道昨天苹果宣布使用谷歌的TPU芯片，导致英伟达史诗级暴跌2000亿美元市值，这无疑说明英伟达的GPU并不是无可替代，也间接说明谷歌TPU的优越性。TPU大家可能不太了解，因为全球只有谷歌与寒武纪在使用这种架构。那么接下来AI老师给大家详解下TPU的结构与北大碳纳米管TPU芯片，有兴趣的朋友可以点击关注我哟！

北大精英科研先锋，彭练矛与张志勇率领的卓越团队，在尖端科技领域投下震撼弹，成功解锁未来计算的新篇章——全球范围内首次研发出以碳纳米管为核心技术的革命性张量处理器（TPU）芯片。这一创举不仅标志着芯片设计的一次飞跃式跨越，更是碳纳米管应用于高性能计算领域的璀璨里程碑。

01/
TPU-定义
“专为机器学习工作负载设计”
现在的大模型的参数量越来越大，从GPT3到5，如果光靠GPU单张大显存肯定是很难搞的，这个时候就需要我们的TPU出场了。TPU是ASIC架构其中一种。

故事先从开源社区说起，DDP与FSDP作为并行训练的两大旗舰策略，紧密绑定于PyTorch的深厚技术底蕴，专为GPU这类内存巨擘设计，当计算规模攀升至一定的高度时，卡之间的瓶颈就出现了，无法做到高效。尤其是当计算节点间缺乏如NVLink或RDMA这样的高速通道时，难免会搁浅的。
GPU的进化就是向着更大显存的前进，大家可以参考英伟达A100到H100GB200对标下，他们大多数是以减少对通信的依赖，成为缓解瓶颈的关键策略。但现在的大模型真的是脱缰野马狂飙，远远甩开了GPU显存扩容节奏。就拿Google的PaLM-540B大模型作为例子，参数就不用说了吧，BF16存储就需要吞1080GB显存，这是对整个计算生态非常大的考验。面对这种情况，传统方法压根无法处理，offload策略虽能勉强维持，但频繁的数据搬运是多么坎坷。例如苹果昨天就使用了2048颗TPUv5p芯片开始训练自己的端侧大模型，据说效果非常高效，具体论文我还没细看。

这个时候TPU的出现。作为专为神经网络训练打造的超级计算芯片，TPU Pod1000块的集群能力，就可以达到前所未有的计算超能力。确实是重新定义了大模型训练的游戏规则。
02/
TPU-架构
“脉动阵列、‌矩阵乘法、特定计算任务”
在国内，TPU其实跟谷歌是同一起跑线。
架构我总结分为脉动阵列、‌矩阵乘法单元MXU、‌针对特定计算任务的优化。‌
1、脉动阵列：‌TPU的核心架构是脉动阵列，‌这是一种特殊的并行计算架构，‌数据在一系列运算逻辑单元中以波的形式流动，‌类似于心脏供血的方式，‌这种结构使得TPU能够在每个周期内执行大量的乘法累加操作。‌
2、矩阵乘法单元：‌MXU由128×128的乘法累加器组成，‌每个MXU每个周期能够执行16K次乘法累加操作。‌MXU是TensorCore的主要组成部分，‌提供了大部分的计算能力。‌MXU的设计专门针对矩阵乘法运算进行了优化，‌不适用于通用计算。‌
3、针对特定计算任务的优化：‌TPUv4在硬件构型上针对Transfomer结构进行了适配和优化，‌包括增加针对MLP和Embedding workloads优化的组件。‌MLP主要处理连续性的数值特征，‌而Embedding组件处理离散型的分类特征。‌这种设计尤其对于语言模型、‌推广模型的加速效益极高。‌
4、内存管理与‌‌激活函数和池化操作我这里就不细说了，‌
微架构哲学我单独说下：‌TPU芯片的微架构的哲学是保持矩阵单元忙碌，‌通过使用统一缓存区和脉动运行来减少能耗和提高效率。‌这种设计减少了从SRAM读取数据时的功耗消耗，这个作用对于计算效率提升是指数级增长。‌

03/
TPU-苹果是谷歌的第一个客户
“脉动阵列、‌矩阵乘法、特定计算任务”
苹果是在设备端AI模型的上，其实可以理解成端侧，没有选N卡，而是2048颗TPU v5p。然后又使用8192颗TPU v4芯片（第四代AI ASIC芯片）的集群，为云端AI训练。我相信很快会出结果，到时候我会继续发文，给大家分析苹果训练的效果。因为这是大家最关心的，毕竟初次使用要对比下GPU训练优势。
04/
北大-首推碳纳米管TPU芯片
“180nm、‌低功耗、3000个碳纳米管”
3000个碳纳管、99。9999%的纯度。
这项技术是北京碳基电子学研究中心的彭练矛与张志勇团队所研发，核心只有惊人的3000个碳纳米管场效应晶体管精妙编织而成，独特的脉动阵列架构设计，可以让并行处理的2位整数乘积累加运算如虎添翼，例如——在仅消耗295微瓦的情况下，竟能驾驭5层卷积神经网络，实现对MNIST图像识别高达88%的精准度。
我们彭总与张总，通过对碳纳米管制造工艺的极致雕刻，成功解锁了半导体材料的至高纯度——99.9999%，我只能用四个字形容“精益求精”。这不仅提升了电流密度的极限，更确保了晶体管性能的均匀与稳定。
不敢想象的是，这款芯片采用的是180nm制程，8位碳纳米管，以850MHz的主频，以及每瓦1万亿次运算的惊人能效，震瘫老黄。这是对GPU霸权的一次深情告白，宣告着一个由碳纳米管技术引领的新时代的到来。

CNT TPU的硬件架构与创新实现
CNT TPU，它由精心布局的3x3处理单元（PE）矩阵、精密控制模块以及高效输入/输出多路复用器共同编织而成，每一部分都为了极致的性能优化而精心打造。
每个PE，作为CNT TPU的基石，被赋予了执行高精度2位整数乘法累加运算的使命。这些PE如同精密的齿轮，在复杂的计算任务中默契配合，共同驱动着整个系统的高效运转。而这都是建立在大约3000个精心制造的碳纳米管场效应晶体管（CNT FET）之上。

在制造工艺上，CNT TPU更是展现了其非凡的创新力。为了确保CNT晶体管的高性能与稳定性，研发团队采取了多项突破性技术。首先，通过先进的多重分散分选方法，成功制备出高纯度的碳纳米管薄膜，这一成果不仅提升了CNT网络的均匀性，更为后续的性能优化奠定了坚实基础。其次，为了打造超洁净的晶体管表面，研发团队巧妙结合了退火与湿法清洁工艺，有效去除了表面杂质，进一步提升了晶体管的性能与可靠性。
直观的方式展示了CNT TPU的整体系统架构，其中PE矩阵、控制模块与多路复用器的精妙布局一目了然。同时，图中还呈现了所制造的CNT FET的扫描电子显微镜（SEM）图像及其结构示意图，这些图像不仅揭示了CNT网络的高纯度与均匀性，更向世人展示了CNT TPU在制造工艺上的卓越成就。

图片来自于上海碳材料展
CNTFET的电学特性与逻辑电路性能展示
CNTFET（碳纳米管场效应晶体管）的卓越电气特性被全面揭示，从传输特性的流畅曲线到输出特性的稳定表现，尤为引人注目的是，基于CNTFET构建的基本逻辑门——如反相器和NAND门——的性能展示。这些逻辑门作为数字电路的基本构建块，其性能直接决定了整个系统的运算速度与稳定性。我们可以看到这些逻辑门展现出了令人瞩目的稳健性和高性能，它们的开关速度快、功耗低，且噪声容限高，完美诠释了CNTFET在逻辑电路设计中的独特优势。

脉动阵列架构：CNT TPU的效能核心
在CNT TPU的精密构造中，脉动阵列架构犹如其心脏，驱动着整个系统的高效运作。这一创新设计巧妙地利用规则阵列来组织基础处理单元（PE），不仅大幅简化了设计复杂度，还显著增强了系统的容错性，为CNT TPU的稳定运行奠定了坚实基础。
每个PE，作为脉动阵列的基本细胞，专注于执行乘法累加（MAC）操作，这是计算领域的基石之一。这些PE不仅独立作战，更紧密协作，通过网状拓扑结构将运算结果无缝传递给相邻的PE，形成了一条条高效的数据流动脉络。
从乘法器到加法器，再到寄存器，每一个组件都紧密配合，共同编织着高效运算的网络。同时，通过高精度的SEM图像和生动的测试信号演示，我们得以窥见卷积运算期间数据流的动态之美，感受到脉动阵列架构所赋予CNT TPU的非凡活力。

北大彭练矛院士、张志勇教授的这项研究成果，发表在最新一期《Nature Electronics》题目为“A carbon-nanotube-based tensor processing unit”。大家有兴趣的可以去看看。
© THE END
转载请联系本公众号获得授权