“深度解析,国产GPU良品率不足90%的问题”

大家都知道之前爆出Hw的昇腾良品率只有20%,因为良品率问题,国产芯片被英伟达多次抢单,那么真实的良品率是多少?今天跟大家谈谈。

昇腾910B是华为海思2018年推出的一款高性能人工智能处理器芯片,
外媒爆出在国产工艺上只有20%良品率。
01/
昇腾-910B
“参数对标A100”
昇腾910B采用了先进的7nm工艺制程昇腾910B:具有32个处理核心,支持FP16、INT8、INT4等多种精度。其半精度(FP16)计算能力高达320TFLOPS,整数精度(INT8)计算能力更是达到了640TOPS,且功耗仅为310W。搭载64GB HBM显存,互联带宽约为400G/S。也就是说性能方面基本上对标A100,基本上的可以替代英伟达GPU芯片。

02/
昇腾-910B
“面积”
从网上找到的国产芯片截图,之前我在公众号上有发过,大家可以看下。

芯片面积是31.25*14.6mm  core面积是1.9 mm x 3 mm = 5.7 mm
另外我在发一下我之前一篇文章发过的截图。大家来对比下。

昇腾910B:24个AI core,每个core的频率为1.8GHz。
昇腾910A:32个AI core,每个core的频率为1.1GHz。
有人在网上给了一个假设,从910A到910B的面积扩大了1.4倍。当前估算的良率为97%,意味着大约3%的AI core可能是坏的。如果能接受每个die中有1个AI core是坏的,那么良率可以提升到接近100%。这个算法对不对?AI老师帮大家来分析下。

以上图片均来自于网络,真实性有待确认。     

事实上面积扩大了1.4倍,core数量从32减少到24,这表明每个core的面积(或复杂度)可能有所增加,或者存在其他设计上的变化(如增加了缓存、改进了互联等)。
芯片设计中通常会考虑到冗余性,以应对制造过程中的缺陷或故障。这意味着即使部分core是坏的,整个芯片仍然可以正常工作,只要剩余的core数量足够满足性能要求。
虽然冗余性设计可以在一定程度上提高芯片的容错能力,但良品率仍然会受到多种因素的影响,包括制造工艺的稳定性、设计的复杂度、以及测试和筛选的严格程度等。在实际生产中,需要通过不断优化设计和制造工艺,以及加强质量控制和测试手段,来提高芯片的良品率。

03/
昇腾-910B
“理论上良品率”

这只是一个基于假设的估算值。
当前估算的良率为97%,意味着大约每100个die中有3个会有至少一个AI core是坏的。
如果设计允许每个die中有1个AI core是坏的而不影响整体性能,那么理论上良率可以提升到接近100%。这是因为在实际应用中,只要剩余的core数量足够,单个core的故障通常是可以容忍的。
04/
昇腾-910B
“真实的良品率”
AI区域和非AI core区域并不是互斥的,因为它们是芯片上的不同部分,而不是两种互斥的情况。一个芯片可以同时包含AI区域和非AI core区域。
正确的计算应该是 P(芯片没有defect∣非AIcore区域)×0.6。
但事实上在这复杂的GPU芯片架构中,有多样化的功能单元,例如视频处理引擎、内存控制器、网络片上系统(NoC)还有处理器(CPU)等,而AI核心虽可能占据半壁江山(约60%),却并非孤军奋战。这片微缩的硅基世界里,每个单元都承载着独特的使命,,一旦失衡,便可能让整个芯片成为废品,看似每个单元微不足道的缺陷,可能隐匿于非AI核心区域的每一个角落,最终会影响着的成品率。

所以那些之前有说良品率20%不可信,同样70%也不能相信,大家一定要有自己的判断。
国产其他几家GPU的良品率可以参考昇腾,目前国内一片wafer是可以平铺90到120颗这样,正常台积电良品率是可以做出70到90颗,我们一般是可以做出30颗。但相信我们的良品率会随着工艺与设计方双向配合,共筑工艺与设计双赢之路。
© THE END 
转载请联系本公众号获得授权
到顶部