越来越火的Chiplet


领先的芯片供应商,如AMD和Intel,已经在多个产品中采用了小芯片(Chiplet)技术。根据我们的分析,这项技术可以将大型7nm设计的成本降低高达25%;在5nm及以下的情况下,节省的成本更大。我们预计小芯片将广泛用于这些高级节点中的数据中心处理器和网络芯片。Alphawave赞助了这篇白皮书的创作,但其观点和分析都是作者的观点和分析。
随着芯片设计人员努力应对摩尔定律的放缓,许多人正在采取一种称为小芯片的新方法。这种方法将一个复杂的设计,例如一个高端处理器或网络芯片,分成几个小芯片,而不是一个大的单片芯片。数据中心产品通常具有领先的晶体管数量,是小芯片的早期采用者。AMD 和英特尔已经推出了多种基于小芯片的设计,英伟达也在开发小芯片技术。我们预计小芯片技术的使用率会提高。
数据中心客户是最苛刻的客户之一,需要更高的计算性能来提供新的云服务和更大的网络带宽来连接大量服务器。为了满足这些计算需求,英特尔和 AMD 竞相在其服务器处理器中塞入更多内核。英伟达强大的GPU已成为训练大型人工智能模型的热门工具,这些模型可以执行标准服务器无法执行的任务。大型数据中心已将以太网速度推至 100Gbps 甚至更高,同时需要具有高端口数的交换芯片。高端 FPGA 客户希望产品具有用于其前沿应用的更多逻辑门。
几十年来,摩尔定律不断改进晶体管技术,使芯片供应商能够满足这些客户的需求,但它正在失去动力。将晶体管密度加倍现在需要三到四年而不是两年。密度的每一次增加都伴随着晶圆成本的急剧上升,每个晶体管的成本几乎没有降低,这是摩尔定律的一个关键原则。每个新晶体管节点的功率和速度增益也有所减少。简而言之,迁移到下一个节点变得更加昂贵,而提供的收益却更少。
小芯片提供了一种创建更高级设计的替代方法。通过使用两个或更多芯片,公司可以将设计的晶体管数量增加到超出单个芯片所能容纳的数量。它可以将较旧的节点用于一些小芯片以节省成本,同时在需要最佳性能的地方使用前沿节点。对于复杂的设计,这种方法可以降低制造成本。随着设计转向 5nm 及以下,成本上升提高了小芯片的经济性。
数据中心中的小芯片
AMD 是第一个引入小芯片架构的主要供应商。其最初的 Epyc 服务器处理器代号为 Naples,于 2017 年推出,在单个封装中具有四个相同(同类)小芯片,总共提供 32 个 CPU 内核。2019年,该公司又推出了第二款Epyc设计(“罗马”),使用8块CPU芯片实现64核,是当时英特尔最好的处理器的两倍多。。Rome 设计增加了第九个小芯片,它集中了所有的 DRAM 和 I/O 电路,如图 1 所示;该芯片使用较便宜的 14 nm节点,而 CPU 小芯片使用7 nm晶体管来提高速度和功率。AMD 为其最新的第三代Epyc 处理器(“米兰”)保留了相同的小芯片配置。

打开腾讯新闻,查看更多图片 >
图 1. AMD 小芯片设计。Epyc 7002(“Rome”)处理器具有 8 个 74mm² CPU 芯片,每个芯片具有 8 个 x86 内核和 32MB 缓存。I/O 芯片尺寸为 410 mm²,并连接到 DRAM 和高速外围设备。有机包装尺寸为 58x78mm。(照片由 AMD 提供,林利集团提供)
对于Agilex FPGA,Intel采用了芯片,但采用了不同的方法。Agilex将设计的主要部分(包括可编程逻辑、CPU子系统和DRAM控制器)保留在单个芯片上。这些芯片(Intel称之为tiles)实现额外的I/O连接,如高速serdes、PCIe Gen5、高带宽内存(HBM2)和Optane持久内存。这种方法允许公司只需更改已安装的芯片即可提供具有各种I/O组合的Agilex产品。英特尔甚至可以创建特定于客户的芯片来添加特殊功能。公司可以添加新的小芯片,例如112Gbps的serdes或HBM3,即使在基本芯片已经投产之后。
Barefoot Networks 现在是英特尔的一部分,在其名为 Tofino 2 的 400G 以太网交换芯片中使用了小芯片。与 Agilex 一样,该产品将中央逻辑保留在单个芯片上,但将其 32 个以太网端口划分为四个小芯片。这种划分简化了封装中 I/O 信号的布线。我们相信以太网小芯片采用 16nm 技术,相对于将它们保留在主要的 7nm 芯片上,降低了成本。该公司还可以在完成其余复杂设计之前开发和测试高速以太网电路,从而降低开发风险。
其他生产中的小芯片设计包括华为 Ascend 910,它包括一个计算芯片和一个独立的 I/O 芯片。它使用硅衬底来连接两个芯片以及四个 HBM2 堆栈。有传言称,英伟达的下一代 GPU(也称为 Lovelace 或Ampere Next)将使用小芯片。英特尔计划在未来的处理器中转向小芯片,优化 CPU、GPU 和 I/O 电路的技术节点。其针对数据中心和超级计算机的 Ponte Vecchio GPU 分为多个小芯片,尽管英特尔尚未透露 2022 年产品的细节。最终,该公司希望通过在小芯片上实现单独的功能块、通过混合搭配过程创建新产品来减少处理器设计时间。.
小芯片的好处
将大芯片分成更小的小芯片通过提高产量来降低制造成本。传统的良率模型假设缺陷在晶圆上随机散布,并且芯片上任何地方的缺陷都会使其无法使用。因此,大芯片比小芯片更可能包含缺陷。掩模尺寸 700mm²的设计(可能的最大尺寸)通常会产生大约30% 的合格芯片,而 150mm²芯片的良品率约为 80%。即使考虑到更多数量的小芯片,这种产量的提高也节省了大量成本。
为了提高大芯片的良率,一些供应商包括可以容纳某些缺陷的冗余电路。例如,一块 SRAM 可以有额外的行来替换任何失效的行。这种方法增加了芯片面积,但减少了易受缺陷影响的“有效面积”。小芯片设计可以去除冗余电路,减少芯片面积,同时仍然提高产量。
进一步的成本节约来自使用不同的制造节点创建不同的(异构)小芯片,这在单片设计中是不可能的。例如,对于密集封装的逻辑和存储器,7nm 晶体管比 16nm 晶体管便宜,但 I/O 接口通常具有模拟电路和其他无法从较小节点中受益的大型功能。出于这个原因,许多小芯片设计将 I/O 功能隔离到在旧节点中制造的单独芯片中。一些逻辑电路(例如加速器)可能不需要以与主处理器相同的最大时钟速率运行,因此可以在中间节点中制造。使用较旧的工艺技术可以将这些小芯片的制造成本降低多达 50%。
公司可以通过在多个产品中重复使用小芯片来减少设计时间和流片费用。例如,AMD 在其第一代 Epyc 和 Ryzen 产品中使用了相同的小芯片设计;PC 处理器使用单个小芯片,而服务器处理器最多包含四个小芯片。此外,AMD 可以通过改变封装中的小芯片数量来轻松提供广泛的 Epyc 核心数量。相比之下,英特尔通常会流片出三款至强芯片,每款都有不同的核心数,以涵盖每一代的全系列型号。同样,Barefoot 可以通过更改以太网小芯片的数量来扩展其交换机的端口数。
I/O 接口故障会导致产品无法启动。为了降低这种风险,Barefoot 将其前沿的以太网设计转移到一个单独的小芯片上,使其能够独立于主逻辑芯片开发和测试该电路。尽管其 Agilix FPGA 已经开始出货,但英特尔计划开发新的小芯片以随着时间的推移升级产品的 I/O 功能。
小芯片可以通过实例化比单个芯片容纳更多的晶体管来实现晶体管数量“超摩尔”的增益。Xilinx 从 2011 年开始使用这种方法,当时它将四个中型小芯片组合在一起,提供的门数是当时最大的单片 FPGA 的两倍。AMD 的 Rome产品在 9 个小芯片上集成了 400 亿个晶体管,而英特尔的现代 Skylake Xeon 单片设计只有 80 亿个。然而,对于许多前沿产品,功耗 (TDP) 在设计达到最大芯片尺寸之前限制了晶体管的数量。
小芯片成本研究
设计人员可以通过多种不同方式实现小芯片。有些使用同构的小芯片,而其他的则将计算和 I/O 功能隔离到不同的小芯片中。硅衬底在小芯片之间提供密集的布线和更大的带宽,但有机衬底的成本更低。作为一个简单的案例研究,让我们来看一个假想的处理器,它可以被分成四个同质的芯片。单片版本需要 7nm 节点中的 600mm²和昂贵的 60x60mm有机 BGA 封装,具有许多布线层来处理大量 I/O。该设计包括一个具有冗余行的相当大的内存,留下了 80% 的有效区域。

表 1. Chiplet 成本比较。这个比较假设一个大芯片 (600mm²) 几乎没有冗余(80% 的有效面积)和一个大 (60x60mm²) 的有机封装被分成四个相同的小芯片。小芯片降低了总芯片成本,但需要更昂贵的封装,净节省 13%。(资料来源:林利集团估计)
划分这种设计可能会产生四个 150mm²的芯片,但小芯片需要额外的芯片到芯片连接区域,这需要比芯片上信号大得多的驱动器;为此,我们估计有 10% 的开销。即便如此,如表 1 所示,较小芯片的良率几乎是大型单片芯片的两倍,从而节省了 100 美元的总芯片成本。
然而,由于测试四个芯片而不是一个芯片的开销,测试成本略高。由于多种原因,该包装已经很昂贵,但成本会大幅增加。如上所述,小芯片的总面积要大 10%,并且封装需要小芯片之间有一些空间,因此它增长到 60x80mm²。将 I/O 分布在更大的封装中减少了布置这些信号所需的层数,但新的芯片到芯片信号增加了布置的层数;我们假设这些变化不重要,并且层数保持不变。最后,多芯片封装的组装成本会更高,组装损耗也会更高。这些封装成本抵消了大约一半的芯片成本节省,净收益为 13%。

图 2. Chiplet 成本场景。小芯片对于几乎没有冗余的大芯片来说是最具成本效益的。在 7nm 节点中,100% 有效面积设计的交叉点约为 400mm²,而对于 5nm,交叉点低于 300mm²。(来源:林利集团分析)
将此成本模型扩展到其他示例,我们看到了在几乎没有冗余或没有冗余的情况下最大的节省。在 7nm节点中,小芯片降低了单片设计的成本,有效面积大于 400 mm²,如图 2a 所示。根据我们的模型,对于相同内核占用 50% 或更多芯片面积的高度常规处理器,小芯片通常会增加制造成本。在这种情况下,冗余内核会提高大芯片的良率,从而降低小芯片的良率增益。
在更先进的制造节点中,小芯片在更广泛的设计中具有优势。例如,在5nm 工艺中,晶圆成本几乎翻了一番,达到 17,000 美元。因此,转移到更小的芯片所节省的成本更大,更容易抵消封装成本的增加。根据我们的模型,5nm 的净成本节省比 7nm 高约10%,这意味着小芯片可以降低小至 200mm²的裸片成本。即使对于有效面积为 50% 的处理器,在 300mm² 以上也会节省成本。尽管 3nm 的晶圆成本尚未确定,但成本节约肯定会再次上升,将小芯片的盈亏平衡点推到150mm²以下。
结论
我们的成本分析表明,用于大型数据中心芯片的芯片组架构具有相当大的优势。在 7nm 中,我们估计分解非常大的芯片最多可节省 20% 的成本,而小至 400mm²的芯片则节省较少的成本。不断上涨的晶圆成本提高了小芯片方法的价值,将超大芯片的潜在节省推至 5nm 的 30% ,在3nm 上则可能达到 40%。在这些先进的节点中,即使是 300 mm²或更小的中等尺寸芯片,小芯片也会很有吸引力,尽管这些较便宜的设计节省的成本自然会更小。该分析排除了其他潜在好处,例如通过在尾随节点中构建部分设计来降低制造成本,或通过在多个产品中重复使用小芯片来降低设计成本。
该分析与迄今为止的小芯片部署一致。如果作为单个 7nm 芯片实施,大多数生产中的小芯片产品将是掩模尺寸(或更大),这使得这种方法最适合昂贵的数据中心芯片。一些供应商将他们的 PC 处理器称为小芯片设计,但他们只是将主处理器和南桥封装在一起,英特尔已经这样做了好几年。到 2022 年,我们预计大多数 PC的GPU 、以及一些中端网络芯片和 FPGA将采用小芯片设计技术。设计内部 ASIC 的公司也将开始采用该技术。
小芯片并不适合所有设计。PC 和智能手机处理器的尺寸通常为 150 mm²或更小,因此它们不会受益。英特尔和英伟达等供应商通过减少某些产品型号的核心数量以容纳有缺陷的核心来提高产量;这种方法还降低了小芯片的成本效益。异构小芯片设计(例如 Agilex 和 Ascend)实际上会增加昂贵的流片数量,尽管其中一些流片通常会转移到较旧的、成本较低的节点上。在多个产品中重用小芯片可以抵消额外的流片成本,但考虑到不同产品细分和跨代的需求不同,到目前为止,我们很少看到重用示例。
然而,许多数据中心芯片都是小芯片技术的最佳选择。该技术已经引起了领先供应商的极大兴趣,AMD、英特尔和英伟达都在出货或至少开发基于小芯片的产品。正如这些供应商所证明的那样,优势不仅在于节省成本,还包括构建比任何单片芯片都更大的设计、通过解耦新技术降低进度风险以及提供灵活的产品配置。其他在高级节点(包括 ASIC)中构建大型设计的公司应该评估这种新方法,以确定他们是否可以从小芯片技术中受益。
知识扩展:chiplet
现在人们普遍认为,以摩尔定律的预期速率进行器件缩放,以及相应地,完全通过改进通用CPU来实现功率/性能缩放的时代将结束。摩尔定律的终结将增加对特定领域加速器(DSA)的需求和使用,以满足云基础设施、网络基础设施和物联网/无线边缘等应用对芯片功率和性能要求。作为一个重要的数据点,近年来的HotChips会议展示了许多面向基础设施应用的领域特定SoC,包括几个神经网络加速器、云处理、安全处理和交换结构。
异构集成-Chiplet
DSA通常是作为单片IC开发和实现的。在单片ASIC(专用集成电路)中,加速器中的所有元件都是在一个硅片上用一种工艺设计和制造的。随着工艺几何图形的缩小,开发ASIC的成本变得高得令人望而却步,例如,在7nm工艺节点上的成本超过2.5亿美元[14]。在如今的发展过程中,只有非常大的市场容量才能证明定制ASIC的发展是合理的。
与一般用途的CPU相比,DSA通常服务于更小的市场。ASIC设计师试图通过整合大量第三方知识产权(IP)核来降低设计成本。第二种控制成本的方法是选择一个更经济的工艺节点,比如16nm,而不是7nm甚至22nm。在太老的节点上,如果要实现应用所需的全部功能,可能会使硅片的面积太大而无法经济地制造。
异构集成系统提供了一种新的设计方案。在这些系统中,产品中的不同组件在独立的裸片上设计和实现,称为chiplet。不同的裸片可以使用不同的工艺节点制造,甚至可以由不同的供应商提供。第三方chiplet可以减少设计时间和成本。但这种方法的可行性常常受到片间互连的性能和可用性的限制。直到最近,片间互连的功耗和性能比片内互连要糟糕3-4个数量级。这需要强制进行高带宽访问的资源,比如外部内存接口和主机接口不能移出芯片。已经开发出了几种新技术从简单到高度并行的高速串行接口,来改进片间连接的电源效率。新的封装技术已被开发,来支持这些不同接口的多芯片封装。
chiplet技术的发展引起了大型商业公司和政府研究机构的关注。Intel、AMD、Intel和Xilinx在多chiplet系统上处理完整的堆栈连接、逻辑数据传输和应用程序执行。他们的工作主要使用专有协议,并且是封闭系统,整个异构系统由单个供应商控制。而云计算和网络运营商的能力、性能和成本要求将根据加速器在网络中的部署位置而有所不同。运营商也更愿意通过跨多个供应商组合一流的解决方案来组装定制化的加速器。
目前的标准化工作在很大程度上局限于片间通信的PHY(物理层)协议。最著名的标准是基于开放式高带宽存储器(HBM)接口的高性能3D堆叠存储器。美国国防部高级研究计划局(DARPA)的计划[18]专注于创建和标准化chiplet之间的开放连接协议。一个限制是,该计划侧重于支持对国防工业重要但可能与商业发展无关的工艺节点。这将协议限制在与接口的模拟性能有一定限制的工艺上。
DSA的另外两个属性必须在多chiplet架构中解决。首先是内存管理。DSA通常连接到主处理器,完整的应用程序流是DSA本身和主处理器上的数据处理过程的有机结合。操作协同是通过协调主处理器和DSA之间的内存状态来实现的。一般是通过内存一致性协议或由程序员管理的主处理器和DSA之间的数据传输来实现的。另一种方式是通过主机上的操作系统控制和管理加速器。
在本文,我们呼吁开发开放体系结构的标准,并开发可以作为开放体系结构模板和初始平台的原型产品。我们(开放领域特定架构(ODSA)工作组)提出了一种低成本、高性能的开放加速器架构,以解决开发DSA的全部需求,包括以下组件:
支持chiplet组之间多种形式的物理通信
基于消息的协议,用于chiplet之间的一致性和批量数据移动
主处理器集成软件,用于将加速器与主处理器集成
为该方法提供chiplet的行业联盟
我们还建议使用以下组件提供平台原型:
有机基质上的低成本多chiplet 封装
一种实现所有其他组件互联胡同的基于消息的通信的网络化chiplet
一个远程SerDeschiplet
一个RISC CPUchiplet
多芯片封装
用于网络加速的主处理器集成软件
图1将ODSA工作组与工业界和政府最近的努力成果chiplet进行了对比。具体来说,相对于DARPA计划,ODSA侧重于关注技术栈之上的内存管理协议。相对于来自大公司的产品,ODSA提倡一种开放的体系结构,使得来自多个供应商的产品可以互操作。综合起来,这些特性将降低在广泛应用中开发和部署高能效、高性能加速器所需的成本和时间。
图1:ODSA协议栈和焦点区域
开放式体系结构将使供应商能够开发同类最佳的DSA:
开发人员在开发产品时,可以将异构的同类最佳组件结合起来。合并来自多个供应商的裸片。此外,对于性能较低的零件,开发人员甚至可以重复使用当前以封装IC形式出售的裸片。
该架构将通过在廉价的基底上采用多芯片互连的多种低功耗方法,以低单位成本提供高性能、多兆比特互连。
该架构将通过支持大量的硬件和软件重用来降低开发成本。
传统意义上讲,加速器被实现为单片的ASIC,其中会包括一个裸片上的所有功能,这些功能通常与系统中的其他芯片连接,具有中、远程SerDes接口。这允许在子块之间的通信在功耗和占用硅片面积上达到最优。
ASIC实现趋势
传统意义上,IC设计者在开发下一代芯片时有两种选择。开发新芯片的主要方法是在下一个可用的工艺节点中利用增加的带宽、增加的处理能力(频率、处理核心)和其他特性更新。第二种方法是在同一个工艺节点中开发其他新特征,以减少新工艺和新工具的投资。
在摩尔定律的帮助下,设计者通常可以在下一个工艺节点将系统中的两个独立的ASIC组合成一个单片设计,从而提高频率。当多个部件组合成一个单一的器件导致接口电源被移除时,这是移动到较小工艺的的动态功耗改进之外的额外好处。不幸的是,随着先进技术向越来越精细的功能转移,以实现面积和功率的扩展,实现这些器件的成本急剧上升。图2显示了随着设计迁移到高级工艺节点,开发成本的快速增长。对于许多市场和应用空间有限的加速器器件来说,这种额外的成本是不可接受的。
为了摊薄开发成本,ASIC的设计比实际需要的更大,因为它们需要被设计为满足各种应用所需功能的超集。不幸的是,功能的超集降低了工艺进步带来的好处,导致更复杂的芯片规格从而需要更多的精力来设计,布局,尤其是要开发出与更新的较小的工艺相匹配或超过增加的掩模和工艺成本的软件。即使这些芯片变得越来越复杂以降低投资成本,但由于更复杂的光刻和工艺(双,三次图案转移,EUV等),每个晶体管的成本下降也在放缓甚至停滞。
有了这些趋势,一个明显的选择似乎是在旧的工艺节点上构造非常大的单裸片。更新同一进程节点中的器件也会带来挑战。通常,上一节中所示的较小裸片的工艺几何结构和良率效益使其无法或不可能将两种不同的设计组合成一个芯片,并满足成本或分划线限制。虽然消除接口可以真正提高接口功率,但设备的总体成本增加使这一好处难以实现。
图2:ASIC开发成本和晶体管的成本效率
此外,大型裸片的缺陷、光刻工具中使用的分划板的局限性以及与层压板连接的可靠大型裸片的局限性也会影响成本。图3比较了两个裸片,一个10x10,另一个是20x20。只要使用非常好的d0(0.1),每300毫米晶圆的中,四个10x10裸片良率会比20x20裸片多29%。
图3:裸片尺寸对良率的影响
基于FPGA的设计是加速器的另一个实现方案,且开发成本非常低。许多加速器开发人员的应用程序服务于一个有限的市场,即使他们能够使用处理器和FPGA实现所需功能并具备显著成本和功率优势,他们也无法证明这笔费用的合理性。图4显示了使用相同工艺节点的ASIC实现相对于FPGA在面积和功耗方面有显著优势。
图4:ASIC与FPGA中相同内容的比较显示了显著的优势
Chiplet概述
在本文讨论的开放式体系结构中,我们探索了第三种途径,使用低功耗接口(如USR、束线(BoW)或新兴的112G SiP标准)实现多组件裸片的异构集成。通过在不同接口上分层公共协议,可以利用一种基于“构建块”的通用方法,通过简单地改变多芯片模块(MCM)的物料清单(BoM),在基板上创建新的系统。
一些组件块(例如长距离SerDes块或电-光接口)可以在需要的地方迁移更高级的工艺节点,但是其他组件块可能保留在具有成本效益的节点中,以减少总体投资。如下图5所示,虽然没有达到技术缩减的相同面积和功率优势,但第三条路径通过显著减少接口面积和功耗,在更具成本效益的节点中比单片集成提供了相当大的面积和功率节省。虽然多芯片系统通常比单个芯片的成本更高,但这些面积和功耗节省可以在一定程度上抵消增量投资。
在这个图表中,基本投资被显示为原始设计的参考点,原始设计需要通过组合组件和通过集成或将更大的设计推送到新技术中来添加新功能来进行更新。集成到单个基板上可提供工艺缩减的带来的许多好处,而投资成本却大大降低。
基板上的集成系统还大大节省了电路板空间和走线延迟,节省了大量系统成本,通常可以抵消设计和集成MCM所增加的成本。
chiplet是什么意思?chiplet和SoC区别在哪里?一文读懂chiplet
从DARPA的CHIPS项目到Intel的Foveros,都把chiplet看成是未来芯片的重要基础技术。简单来说,chiplet技术就是像搭积木一样,把一些预先生产好的实现特定功能的芯片裸片(die)通过先进的集成技术(比如3DintegraTIon)集成封装在一起形成一个系统芯片。而这些基本的裸片就是chiplet。从这个意义上来说,chiplet就是一个新的IP重用模式。未来,以chiplet模式集成的芯片会是一个“超级”异构系统,可以为AI计算带来更多的灵活性和新的机会。
chiplet是什么意思?chiplet模式简介
chiplet的概念其实很简单,就是硅片级别的重用。设计一个系统级芯片,以前的方法是从不同的IP供应商购买一些IP,软核(代码)或硬核(版图),结合自研的模块,集成为一个SoC,然后在某个芯片工艺节点上完成芯片设计和生产的完整流程。未来,对于某些IP,你可能不需要自己做设计和生产了,而只需要买别人实现好的硅片,然后在一个封装里集成起来,形成一个SiP(SysteminPackage)。所以chiplet也是一种IP,但它是以硅片的形式提供的。
chiplet的概念最早来自DARPA的CHIPS(CommonHeterogeneousIntegraTIonandIPReuseStrategies)项目。该项目试图解决的主要问题如下“Themonolithicnatureofstate-of-the-artSoCsisnotalwaysacceptableforDoDorotherlow-volumeapplicaTIonsduetofactorssuchashighiniTIalprototypecostsandrequirementsforalternativematerialsets.Toenhanceoverallsystemflexibilityandreducedesigntimefornext-generationproducts,theCommonHeterogeneousIntegrationandIntellectualProperty(IP)ReuseStrategies(CHIPS)programseekstoestablishanewparadigminIPreuse.”。而它的愿景是:“ThevisionofCHIPSisanecosystemofdiscretemodular,reusableIPblocks,whichcanbeassembledintoasystemusingexistingandemergingintegrationtechnologies.ModularityandreusabilityofIPblockswillrequireelectricalandphysicalinterfacestandardstobewidelyadoptedbythecommunitysupportingtheCHIPSecosystem.Therefore,theCHIPSprogramwilldevelopthedesigntoolsandintegrationstandardsrequiredtodemonstratemodularintegratedcircuit(IC)designsthatleveragethebestofDoDandcommercialdesignsandtechnologies.”从这段描述来看chiplet可以说是一种新的芯片设计模式,要实现chiplet这种新的IP重用模式,首先要具备的技术基础就是先进的芯片集成封装技术。SiP的概念很早就有,把多个硅片封装在一个硅片里也有很久的历史了。但要实现chiplet这种高灵活度,高性能,低成本的硅片重用愿景,必须要先进的芯片集成技术,比如Intel最近提出的Foveros,3D集成技术。
3D集成技术使我们的芯片规模可以在三维空间发展,而不是传统的限于二维空间。由于在二维空间里,摩尔定律已经很难延续,向三维发展也是一个自然的趋势。此外,正如下图所说的,这种3D集成技术除了提供更高的计算密度之外,还可以让我们重新考虑系统架构(enablingacompleterethinkingofsystem),这个也就是chiplet模式给我们带来的各种新的灵活性,后面再详细讨论。
这里我们不详细讨论3D集成技术的细节,根据目前的发展,在未来几年,相关技术会越来越成熟,应该能够为chiplet模式的普及做好准备。chiplet和SoC区别在哪里?从上文我们可以看出来chiplet和SoC区别在哪里;先有chiplet的应用,才能够集成为一个SoC;chiplet是在硅片级别的重用;chiplet技术就是像搭积木一样实现新的IP重用模式。
SoC:SystemonChip的缩写,称为芯片级系统,也有称片上系统,意指它是一个产品,是一个有专用目标的集成电路,其中包含完整系统并有嵌入软件的全部内容。
SoC更强调的是一个整体,在集成电路领域,给它的定义为:由多个具有特定功能的集成电路组合在一个芯片上形成的系统或产品,其中包含完整的硬件系统及其承载的嵌入式软件。这意味着,在单个芯片上,就能完成一个电子系统的功能,而这个系统在以前往往需要一个或多个电路板,以及板上的各种电子器件、芯片和互连线共同配合来实现。前面我们说集成电路的时候提到过楼房对平房的集成,而SoC可以看作是城镇对楼房的集成;宾馆、饭店、商场、超市、医院、学校、汽车站和大量的住宅,集中在一起,构成了一个小镇的功能,满足人们吃住行的基本需求。SoC更多的是对处理器(包括CPU、DSP)、存储器、各种接口控制模块、各种互联总线的集成,其典型代表为手机芯片(参见术语“终端芯片”的介绍)。SoC还达不到单芯片实现一个传统的电子产品的程度,可以说SoC只是实现了一个小镇的功能,还不能实现一个城市的功能。
AIchiplet的优势
总得来说,我个人认为chiplet模式对于AI硬件的长期发展会有非常正面的影响,主要体现在下面几个方面。
第一,工艺选择的灵活性
chiplet模式的最大优势之一就是一个系统里可以集成多个工艺节点的硅片。
这也是chiplet模式可能支持快速开发,降低实现成本的一个重要因素。大家知道,在芯片设计中,对于不同目的和类型的电路,并不是最新的工艺就总是最合适的。在目前的单硅片系统里,系统只能在一个工艺节点上实现。而对于很多功能来说,使用成本高风险大的最新工艺即没有必要又非常困难,比如一些专用加速功能和模拟设计。如果chiplet模式成立,那么大家在做系统设计的时候则有了更多的选择。对于追求性能极限的模块,比如高性能CPU,可以使用最新工艺。而特殊的功能模块,比如存储器,模拟接口和一些专用加速器,则可以按照需求选择性价比最高的方案。
这一点对于AI芯片的发展是相当有利的。首先,AI加速本身就是一个DSA(专用领域架构),其架构本身就是专门为特定运算定制的,具有很高的效率,即使选择差一两代的工艺,也可以满足很多情况的要求。但目前,大多数这个领域的初创公司,都面临工艺选择的困境。如果选择先进工艺,可能一次投片就耗尽所有投资。如果不选,好像一下就输在了起跑线。如果chiplet模式成为主流,大家的工艺选择应该可以更加理性,工艺虽不是最新但性价比最好的chiplet会有更多机会。第二,对于很多可能大幅提升AI运算效率的新兴技术,比如存内计算,模拟计算(包括光计算),它们使用的器件往往只在相对较低的工艺节点比较成熟,和系统的其它部分怎么集成就是个大问题。chiplet模式也可以解决这个问题,则这些技术的开发商可以以chipletIP的形式提供产品,和其它不同工艺的功能模块集成在一起,而无需受限于Foundry工艺的进展。
第二,架构设计的灵活性
以chiplet构成的系统可以说是一个“超级”异构系统,给传统的异构SoC增加了新的维度,至少包括空间维度和工艺选择的维度。首先,如前所述,先进的集成技术在3D空间的扩展可以极大提高芯片规模。这当然对AI算力的扩展和成本的降低有很大好处。第二,结合前述的工艺灵活性,我们可能在架构设计中有更合理的功能/工艺的权衡,有利于AISoC或者AIoT芯片更好的适应应用场景的需求。第三,系统的架构设计,特别是功能模块间的互联,有更多优化的空间。在目前的AI芯片架构中,数据流动是主要瓶颈。HBM(也可以看成是一种chiplet)可以在一定程度上解决处理器和DRAM之间的数据流动问题,但价格还过于昂贵。对于云端AI加速,HostCPU和AI加速芯片之间,以及多片加速芯片之间的互联,目前主要通过PCIe,NvLink,或者直接用SerDes等等。如果是chiplet方式,则是硅片的互联,带宽,延时和功耗都会有巨大的改善。另外,目前的片上网络NoC是在一个硅片(2D)上的,而未来的NoC则扩展到硅片之间,特别是和ActiveInterposer结合,就可能成为一个3D网络,其路由,拓扑以及QoS可以有更多优化的空间。
第三,商业模式的灵活性
chiplet模式在传统的IP供应商和芯片供应商之外,提供了一个新的选择:chiplet硅片供应商。对于目前的AI芯片厂商来说,要么聚焦在AI加速部分,以IP形式或者外接硬件加速芯片的形式提供产品;要么走垂直领域,做集成AI加速功能的SoC。对于前者来说,chiplet可以提供一个新的产品形式,增加潜在的市场,或者拉长一代产品(工艺)的生命周期。对于一些硅实现能力比较强的厂商来说,也说不定未来会演变成专门做chiplet的供应商。对后者来说,可以直接集成合适AIchiplet而不是IP(还需要自己做芯片实现),大大节约项目开发的时间。
因此,可以预见,AIchiplet会成为AI硬件重用和集成的重要模式。
chiplet模式的挑战
首先当然是集成技术的挑战。chiplet模式的基础还是先进的封装技术,必须能够做到低成本和高可靠性。这部分主要看foundry和封装厂商。随着先进工艺部署的速度减缓,封装技术逐渐成为大家关注的重点。此外,集成技术的挑战还来自集成标准。回到CHIPS项目,可以看出,该项目的重点就是是设计工具和集成标准。Intel的AIB(AdvancedInterfaceBus)就是一个硅片到硅片的互联标准,如果未来能够成为业界的标准(类似ARM的AMBA总线标准的作用),则chiplet的模式就可能更快的普及。还有,对于这种“超级”异构系统,其更大的优化空间也同时意味着架构优化的难度也会大大增加。
除了集成技术之外,chiplet模式能否成功的另一个大问题是质量保障。我们在选择IP的时候,除了PPA之外,最重要的一个考量指标就是IP本身的质量问题。IP本身有没有bug,接入系统会不会带来问题,有没有在真正的硅片上验证过等等。在目前的IP重用方法中,对IP的测试和验证已经有比较成熟的方法。但对于chiplet来说,这还是个需要探索的问题。虽然,相对传统IP,chiplet是经过硅验证的产品,本身保证了物理实现的正确性。但它仍然有良率的问题,而且如果SiP中的一个硅片有问题,则整个系统都受影响,代价很高。因此,集成到SiP中的chiplet必须保证100%无故障。从这个问题延伸,还有集成后的SiP如何进行测试的问题。将多个chiplet封装在一起后,每个chiplet能够连接到的芯片管脚更为有限,有些chiplet可能完全无法直接从芯片外部管脚直接访问,这也给芯片测试带来的新的挑战。
最后补充一点,还是那句话,有挑战就有机会。个人认为,除了前面讨论的chiplet模式对普及AI硬件的推动,它还会促进EDA工具的发展。不论是集成技术,还是质量保障,很多chiplet模式的问题最终都需要EDA工具的改进来给出答案,需要EDA工具从架构探索,到芯片实现,甚至到物理设计的全面支持。这也是CHIPS项目的一个重点是设计工具的原因。
长按或者扫码二维码
可获取更多精彩内容
芯片讲坛

声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。‍
到顶部