国产华为、寒武纪、海光算力最近纪要 4.13


问:目前在英伟达显卡采购上的策略是什么?H20显卡的价格是多少?
答:目前策略是将现有模型主力训练芯片定为英伟达H20显卡,但考虑到供应链政策变化,在24年内可能会尝试国产化迁移,但优先仍以英伟达为主。今年预计下的英伟达显卡单量约为6万张左右。H20显卡的最终定价约为7万人民币,折合美元约为8万多。
问:英伟达提供的H20显卡对于GPT4模型训练的支持如何?
答:H20显卡可以满足GPT4最多到4.5级别的日常训练使用,但随着模型等级提升,H20显卡在维护成本、采购成本及后续大模型研发方面将不再适用或性价比不高。
问:预计国内今年可能下单多少张H20显卡?
答:根据英伟达的乐观估计,国内今年可能达到20万张左右的H20显卡订单,具体数量取决于国产芯片特别是深层芯片的出货情况。
问:训练一个GPT4.0模型,需要多少张H20显卡?
答:目前预计训练一个GPT4.0模型需要至少在现有卡的基础上扩3到4倍的H20显卡数量。
问:GPT4模型会有一个多大参数量的增量需求?
答:目前可以达到万亿级别的参数量,后续参数量肯定还会更高。
问:这次采购的主要目的是什么?
答:这次采购的主要目的是为阿里集团储备资源,同时考虑到集团整体管控和对外租赁的需求。
问:国产卡的测试情况如何?
答:目前测试显示,NNV国产卡在生成侧存在商务关系问题,但生产下单可达1万张水平。对于寒武纪和其他国产卡,目前还在测试中,预计会有少量采购。
问:国产卡与H20显卡在性能上的比较如何?
答:国产卡在单卡性能上不比H20显卡差太多,但在缓存带宽上优于H20显卡。国内卡在集群效果上与H20显卡相当,但软件生态和适配方面相对不成熟。
问:HR在千卡效率下的生成式能力如何?
答:HR在千卡效率下的生成式能力可以达到H20的70%左右,但今年由于国产训练卡短期内难以提升,所以依赖国产卡时,实际生成效率在集训赛大集锦赛中能保持在70%左右。
问:910C芯片对生成式应用有何支持?
答:目前没有收到910C芯片对生成式应用的测试结果,但据透露,该芯片支持5万张卡的大规模集群,并能将性能提升至H100的80%左右。

问:国内友商GPT4.0进展如何?GPT4.5国内和海外的发布时间计划是怎样的?
答:国内友商的GPT4.0进展较快,百度和字节跳动今年有望推出类似能力。在特定垂直领域,如医疗行业,已取得较好效果。国内GPT4.5预计在Q2推出GPT4的积累模型,在Q4推出CBM能力。而海外GPT4.5已经在近期发布体验版,预计在两三天内正式发布。
问:GPT4.0与海外GPT4.0的主要差距在哪里?
答:国产模型在中文语义处理和联想、检索准确率等性能指标上表现较好,而海外GPT4.0在动模态理解、可应用性及跨模态理解等方面有一定优势。
问:GPT4.5相较于GPT4在哪些方面有提升?
答:GPT4.5在动模态能力上显著增强,尤其是视觉3D领域的处理,复杂推理场景也得到了较大提升,跨模态理解能力有了质的飞跃,有助于软硬一体机器人及多模态应用的发展。
问:国内除模型外,应用方面的情况如何?
答:国内应用如Kimi表现出色,尽管模型部分丰富度上可能不如大云厂商,但在特定场景下的推理效果甚至优于大型云厂商。Kimi通过精读200万字文本,提供更准确的结果。
问:长期来看,独立厂商的产品在大模型领域是否能存活下来并爆发持续性?
答:长期来看,独立厂商与大模型厂商的关系是竞合关系,而非绝对的胜者。大模型作为一种趋势,未来发展趋势仍不确定。独立厂商在特定场景的深耕能力较强,但对底层模型和商业机储备有一定差距。目前投资策略包括与头部厂商形成合作关系,提供算力和平台,独立厂商提供产品,共同争夺客户;若自身模型未能发展起来,则通过投资多个厂商来寻找一个成功的案例。
问:对于近期比较火的meat AI应用有何评价?
答:对于meat AI应用,虽然无法全面评价其在整个行业中的排名,但从特定领域来看,其在用户体验侧的能力表现较好,领先于某些特定身份证做的产品。
问:国内哪些应用或类型的应用可能在下一两个季度有较好的爆发?
答:预计在下一两个季度中,文本类应用(如文档处理、智能助手、电商智能导购等)、语音类应用(语音互动、云理解能力等)、AI代码(提高代码通过率)以及数据分析类产品(如BI看板、数据搜索等)会有较大的市场爆发。其中,文本和语音类应用可能在今年迎来集中爆发。
问:视频类应用是否会爆发,其算力需求与文本类、语音类应用相比如何?
答:视频类应用肯定会有市场爆发,但相对于文本和语音类应用,时间会相对更长。视频类模型对于算力和效果的要求更高,目前会进行测试,不会盲目推市场。如果效果达不到预期,投入产出比可能不理想。不同厂商之间的视频类应用算力需求差异较大,取决于模型训练的模态和参数素材大小。
问:自动驾驶领域中,公司是否自研自动驾驶技术,以及与华为的合作情况如何?
答:公司在自动驾驶领域更多依赖于与吉利等企业的合作,自研的自动驾驶技术目前并不成熟。华为尚未下单,但预计华为零大概率会在六个月内交付一定数量的订单。
问:今年内你们计划交付多少台服务器?
答:今年内计划交付6万台服务器。
问:为什么立讯这次参与了AI服务器的采购?之前与苹果合作的立讯,在AI领域似乎并不突出。
答:这次下单是集团层面而非BU层面,集团在经过考量后选择了增加供应商,这次主要采购的是推理服务器,与应用场景相关。
问:对于这次集团层面下的6万台AI服务器订单,你们和另外两家供应商(浪潮和华擎)的份额大概是怎样的?
答:这次浪潮和华擎的份额大概相当,都是大约30%左右。
问:你们是否会考虑使用英伟达的新GPU?
答:会考虑,但目前主要使用英伟达的GPU,而GPU租赁主要集中在张北、乌兰察布、杭州、河源、南通等地区,但杭州有一些医院在使用。
问:服务器组装这件事,你们觉得技术壁垒大吗?
答:技术壁垒不算大,但选择供应商并不简单,可能考虑到了蚂蚁的合作、成本因素、规模周期以及与其他部门的合作需求。
问:国内有一些做双林租赁的公司对外提供H100的租赁服务,如果他们大量租赁,你们会考虑使用吗?
答:如果他们能提供规模化租赁服务,我们会考虑使用,但通常情况下会通过阿里云进行商业租赁需求的满足,避免过于直接暴露在外部风险中。
问:对于AI板块,最近GP ChatGPT的访问人数没有增长,你怎么看待AI未来的前景?对于AI的未来增长瓶颈,你怎么看?
答:这个现状符合预期,模型迭代速度与需求端和商业化端增速不匹配是目前的问题。只有通过模型迭代才能挖掘出新的应用场景,这些场景可能对用户来说是刚需,对企业来说则是重要但不紧急的事情。增长遇到瓶颈并不一定意味着衰落,这是一个需要过程的行业,软硬件、云资源算力以及行业上下游的合作都是影响AI发展的重要因素。
问:平头哥流片的芯片算力和带宽参数是怎样的?对于服务器厂商的付费方式是怎样的?
答:平头哥芯片参数目前还未对外披露,但其第三代芯片相较于二代有70%左右的提升,性能对标L40S或英伟达同类芯片。对于服务器厂商,我们会提供芯片并协助组装,通过项目形式完成整机整合。
问:对于服务器厂商来说,他们的收入中是会计服务器的总价值,还是只记服务器的加工费?
答:这要看具体情况,两者都会有所记录,但目前主流做法是前者,包括服务器组装、芯片组装等整体价值都会在其中体现。
问:假设对标推理卡,服务器的价值计算是按照每台大几十万台乘以台数吗?

答:是的,目前我们下单就是按照这个形式来的。
问:目前预计今年全年将采购多少万张H20芯片?
答:目前预计全年可能采购20万张左右,但我们仍在等待工信部审批结果,实际采购量可能会波动,目前已经下了61000张。
问:为什么在供不应求的情况下,升腾芯片还要采购1万张卡呢?
答:采购升腾芯片是多方面因素决定的,如响应政策要求推动国产化、考虑到政策可能收紧导致供应链芯片差距加大,以及长期看好该芯片在国产化进程中的作用。
问:如果性能足够优秀,是否会大量采购910C芯片?
答:这是一个综合考量,如果性能足够强且供应链能跟上,会考虑加大采购量。但不确定因素较多,现阶段无法做出明确承诺。
问:对于英伟达后续推出的训练卡,计划如何采购?
答:目前我们尝试通过海外合作成立合资公司的方式,与运营商合作进行海外采购,建立海外模型生态并提供租赁解决方案,但具体实施还处于探索阶段。
问:未来是否只有国产芯片和阉割版芯片可供选择?
答:在当前政策不变的情况下,预计是这样的。而且由于美国市场对阉割卡的要求越来越严格,后面对大模型场景的需求,阉割卡无法满足需求。
问:是否开始进行平头哥推理框架的适配工作?
答:是的,平头哥推理框架的适配工作主要由华为负责,但由于需求旺盛且商务关系维护不佳,目前大部分工作由华为承担。
问:国内推理市场的发展前景如何?
答:国内推理市场前景广阔,随着推理模型收敛及市场生态的发展,需求量将大幅增加,尤其是钉钉等大模型产品的普及,将带动推理端算力市场快速发展。
更多纪要点击关注哟!
到顶部