本文为1075字,建议阅读3分钟
这两天被Groq刷屏了,英伟达迎来最强对手Groq,初创公司Groq推出的专为大模型而生的芯片LPU,号称推理速度是英伟达的GPU的10倍,每秒输出500个Token,Groq的使命是为AGI推理速度设定标准
Groq宣称他们的技术可以改变游戏规则
简单看看一些Groq公司主页提供的非常强悍的数字:
Groq是一种颠覆性的AI架构设计
简化的LPU架构:
卓越的顺序性能
单核架构
在大规模部署中保持同步网络
自动编译能力 >50B LLMs
即时内存访问
即使在较低精度水平下也能保持高精度
Groq以其围绕编译器技术为核心的激进不同方法而独树一帜,该技术致力于优化简洁高效的基础架构。Groq的独特之处在于其“编译器优先”的策略,它摒弃了复杂性,转而追求定制化的效率。
Groq架构的核心是一个近乎令人惊讶的极简设计,它舍弃了多余的逻辑功能,以实现原始并行处理能力的最大化。硬件本身类似于一种针对机器学习精细调校的应用专用集成电路(ASIC),但与固定功能的ASIC不同的是,Groq采用了一种能够适应和优化不同模型的自定义编译器。正是这种精简架构与智能编译器的组合,使Groq脱颖而出。
关键的洞察是许多AI芯片堆叠了诸如GPU之类的组件,这些组件引入了不必要的硬件冗余。Groq回归基础原理,认识到机器学习负载实际上是对简单数据类型和操作的大规模并行处理。通过去除通用硬件甚至像局部性这样的概念,该设计最大限度地提升了吞吐量和效率。
这一目标得以实现的关键在于Groq位于软件框架(如TensorFlow)与硬件之间的编译器。该编译器分析并优化神经网络图,将其专门适配并映射到底层架构上以实现加速执行。它将计算任务分解为最小的操作单元,从而释放并行计算潜力。此外,编译器还支持批量大小为1的推理,确保所有硬件资源得到有效利用。
尤为关键的是,Groq在最终确定硬件设计之前就构建了其编译器。软件层面的洞察直接指导了架构的设计。这种软硬件协同设计的过程使得无需受制于传统局限,可以进行针对推理任务的特定优化。编译器还能提供运行时间的确定性保证,从而实现可靠扩展。
总之,Groq的编译器与其架构共同构成了一个流线型、稳健的机器学习推理引擎。创新的“编译器优先”方法实现了灵活性与性能之间的定制化平衡优化。Groq意识到,在软件与硬件紧密结合的情况下,简化往往能带来更多的效益——这一理念对于不断演进的AI工作负载而言具有极大的吸引力。
结语
AI大神贾扬清对Groq进行成本分析:
东西是好东西,就是太贵了!
硬件是40倍成本,电费是10倍成本
1、购买硬件:572张卡*2万美元/卡=1144万美元
2、每年电费:572*185*200*12=25.4万美元
3、同等性能的H卡:硬件:30万美元,电费:2.4万美元
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
Groq会颠覆英伟达吗👇👇