【重磅】Cerebras推出全球最快AI芯片:4万亿晶体管,英伟达H100秒变算盘



本文为1429字,建议阅读4分钟

Cerebras 发布第三代5nm晶圆级人工智能芯片 WSE-3: 成为地球上最快的人工智能芯片。它在人工智能优化的内核、内存速度和片上结构带宽方面超越了所有其他芯片
WSE-3拥有非常凶残的参数:与当今最先进英伟达的H100比较‍‍‍‍‍‍‍‍‍‍‍‍

WSE-3  英伟达 H100 优势
 芯片尺寸 46,225 平方毫米 826 平方毫米 57 X
 核心 900,000 16,896 FP32 + 528 Tensor 52X
 片上存储 44 GB  0.05 GB 880X
 内存带宽 21 PB/秒  0.003 PB/秒 7,000X
 结构带宽 214 Petabits/sec  0.0576 Petabits/sec 3,715 X

52x 
更多 AI 计算核心
WSE-3 将 900,000 个 AI 核心封装到单个处理器上。 WSE 上的每个核心均可独立编程并针对基于张量的稀疏线性代数运算进行优化,这些运算支撑神经网络训练和深度学习推理,使其能够提供最高的性能、效率和灵活性
880x 
更多片上内存
与工作缓存很小的传统设备不同,WSE-3 采用 44GB 超高速片上 SRAM,并将其均匀分布在芯片的整个表面上。这使得每个内核都能以极高的带宽(21 PB/s)单时钟周期访问快速内存。与领先的 GPU 相比,容量提高了 880 倍,带宽提高了 7,000 倍
3,715x 
更多结构带宽
WSE-3 晶圆上互连消除了通过电线和电缆连接数百个小型设备所带来的通信速度减慢和效率低下的问题。它提供令人难以置信的 214 Pb/s 处理器间互连带宽。这是图形处理器之间提供的带宽的 3,715 倍多
构建超级AI计算机‍‍‍‍‍
Cerebras WSE-3(CS-3)专门用于训练最先进的 AI 模型。 CS-3 是按比例构建的:使用下一代 SwarmX 互连,最多可以将 2048 个 CS-3 系统连接在一起,以构建高达四分之一 zettaflops (10^21) 的超大规模 AI 超级计算机。 
CS-3 可配置高达 1,200 TB 的外部存储器,允许单个系统训练多达 24 万亿个参数的模型,为机器学习研究人员构建比 GPT-4 和 Claude 大 10 倍的模型铺平道路。 CS-3 现已发货给客户。 Condor Galaxy 3 与 G42 将合作构建的第一台 CS-3 驱动的人工智能超级计算机CG-3,将于 2024 年第二季度投入运行

与拥有数万个芯片和复杂内存层次结构的 GPU 集群不同,CG-3 对 ML 开发人员来说是一个具有单一统一内存的单一处理器。它是唯一一款外观和编程都像单一设备的人工智能超级计算机
可扩展性

GPT-4 和 Gemini 等大型语言模型的规模每年增长 10 倍。为了满足不断增长的计算和内存需求,Cerebras极大地提高了集群的可扩展性。 CS-3 支持 2048 个系统的集群,性能提升了 10 倍。由 2048 个 CS-3 组成的完整集群可提供 256 exaflops 的 AI 计算能力,并且可以在不到一天的时间内从头开始训练 Llama2-70B,相比之下,Llama2-70B 在 Meta 的英伟达 GPU 集群上训练大约需要一个月的时间。此外,得益于 Cerebras 独特的权重流架构,整个集群的外观和编程就像一个单芯片,大大简化了分布式计算的艰巨任务

与 GPU 不同,Cerebras Wafer Scale Cluster 解耦了计算和内存组件,使得CS-3能够轻松扩展 MemoryX 单元中的内存容量。 CS-3大幅增加了 MemoryX 选项,包括面向企业客户的 24TB 和 36TB SKU,以及面向超大规模企业的 120TB 和 1,200 TB 选项。 1,200 TB 配置能够存储具有 24 万亿个参数的模型

当单个 CS-3 可以与单个 1,200 TB MemoryX 单元配对,这意味着单个 CS-3 机架可以比 10,000 个节点 GPU 集群存储更多的模型参数。这使得一名 ML 工程师可以在一台机器上开发和调试万亿参数模型,这在 GPU 领域是闻所未闻的壮举(处处在讽刺英伟达,哈哈😄)
推理成本降低 10 倍
Cerebras 与高通合作开发了一个用于训练和推理的联合人工智能平台。使用独特的架构功能(例如非结构化稀疏性)在 CS-3 上训练的模型可以在 Qualcomm AI 100 Ultra 推理加速器上加速,LLM 推理吞吐量提高了 10 倍
结语
Cerebras CS-3 在大规模人工智能性能方面树立了新的基准。通过在单个逻辑设备中提供亿亿级性能,基于 CS-3 的集群提供了构建下一代 AI 模型的最简单、最快的方法
Cerebras 首席执行官兼联合创始人Andrew Feldman)表示:八年前,当我们开始这一旅程时,每个人都说晶圆级处理器是一个白日梦,我们非常自豪能够推出第三代突破性水平人工智能芯片
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

晶圆级优势👇👇
到顶部