以下为专家观点Patrick: H20在训练方面与昇腾的910B对比如何?
专家:H20的主要优势在于其FP32性能,达到了 A100的227%。然而,在FP16性能方面,H20的表现相对较弱,仅为A100的47%。尽管如此,H20配备了96GB的显存和900GB/s的带宽,这使得它能够胜任百亿级别的模型训练任务。在训练过程中, FP32仍然是主要使用的精度类型。然而,当涉及到推理任务时,H20的性能表现不如910B芯片。在性价比方面,H20的价格为12000美金,而HW的出货价在12-13万人民币之间。从性价比的角度来看,尽管HW的价格略高,但其性能表现更为出色。因此,每种芯片都有其优势和不足,没有哪一种是绝对完美的。如果H20的价格进一步下调,例如降至1万或9000美金,其性价比将更加显著。目前,HW仍然坚持在13-14万人民币的报价水平。Patrick:中国区可以购买B40芯片吗?
专家:英伟达B系列芯片的销售许可正在申请过程中,尚未获得商务部的正式批准,这同样适用于 AMD公司的产品。AMD之前推出的MI300后续推出了MI309的阉割版本,但该版本未能获得批准。在这种情况下。公司采取的策略足优先购买目前可获得的H20芯片。随着未来政策的不确定性增加,公司开始将重心转向国产芯片。鉴于政策变化可能带来的风险,公司不能完全依赖英伟达。目前,公司正密切关注英伟达是否能在2Q24按计划交付产品..如果交付出现延迟,那么后续的不确定性将随之增加。在内部,公司已经开始了对国产芯片的推广和优先使用。3Q23之前,国产芯片在与大厂的合作中面临诸多困难,因为大厂缺乏专门的团队来进行对接和支持。然而,现在情况已经发生了显著变化,大厂开始往国产芯片倾斜。这种转变不仅是由于业务需求和外部风险的考量,也受到了国家政策的积极引导。关注更多纪要可以关注我哟!↓↓↓
Patrick: 910B与910C的区别如何?
专家:910C预计将在算力上比现有的芯片提升2-3倍,将在3Q24推出。910C与现有硬件的兼容性更强,这意味着无需更换板卡,直接替换芯片即可升级使用。这一点对公司来说非常有利,因为软件和硬件的兼容性保持一致。910C向公司的交货时间要到七月。目前,HW主要精力集中在910B芯片上,该芯片已经升级为910B Pro版本。910B系列包括多个版本,如910A、910B以及升级版的910B Pro。作为第二代产品,910B Pro提供了更高的算力,达到280多TFLOPS。Patrick: 920芯片的规划如何?
专家:920要更晚一点,规划在Roadmap里。Roadmap的意思就是短则半年,长则一年,意思是下一代产品。Patrick: 910B的适配节奏?HWJ 590和深算3号的适配节奏?
HW的MindSpore提供给公司使用,公司还需要进行很多工作。MindSpare中包含许多公共算子,如激活函数、规划融合操作等,这些通用算子已经完成了对齐。对齐后公司完成这些通月算子的集成,然后是公司将自家的特殊算子和自研算子同910B适配。在这一过程中,公司发现可能会有一些性能和精度的损失,这主要是由于CUDA与华为平台之间的差异导致的。即便在CUDA上优化得很好的模型,在910B上可能会发现性能有所下降。因此,公司正在进行大量的性能优化工作。目前,910B的第一阶段适配工作已接近完成,公司现在正在进行新算子的对齐和性能优化、效率提升等工作。同时,公司正在等待大集群的到来,已经订购了一批预计在2Q24到货的大集群。到货后,公司计划在这些机器上运行千亿级别的模型。之前所似的基础工作也可以迁移到千亿模型上,包括逼用算子的对齐和自定义算子的适配。这些工作完成后,公司将持续进行优化。
关注更多纪要可以关注我哟!↓↓↓
对于HW的项目,公司预计到2Q24末,将达到约1000片芯片的使用量。如果2Q24运行顺利,公司计划在3Q24/4Q24增加订单量,预计达到2万多片。华为对公司有几个变化。首先,公司需要建立一个专门的团队来与华为对接,确保双方的版本更新和需求对齐。其次,在HW平台上训练完成的模型,若需转换至其他系统进行推理,例如在CUDA上运行,会涉及到模型的转换工作。910B芯片支持通用模型结构,将模型导出为ONNX(OpenNeural Network Exchange)格式。公司目前正将训练于910B的模型转换为ONNX格式,以便能够在 CUDA环境中执行推理任务。所以公司的目标足实现异构计算,这意味着无论模型最初是在哪家公司的产品上进行训练的,例如英伟达、寒HWJ或HW,最终都能保存为一种通用格式。
然而,这会对性能造成一定的影响,但可以通过分流裁剪和量化等技术手段来优化这一过程。在未来的机器配置中、训练侧,公司将采用2至3家平台,在推理侧要打通,无论是哪家公司的产品,经过适配后,都可以在CUDA环境下进行推理。在模型层面,公司将支持各种不同厂商的数据格式,例如包括HWJ的特定格式和华为910B的格式在内的ONNX架构格式,同时也会兼容如TensorFlow和PyTorch这样的通用架构。通过这种多元化的适配策略,实现异构计算。
国产化加快
在国产芯片领域,HW进展相对较快。除此之外,公司也在积极对接HWJ590的芯片,该工作自2月份开始。去年12月份,HWJ已与公司接触,但由于当时公司正专注于华为项目。目前,公司在等待华为的大集群,所以公司的团队可以将主要精力投入到HWJ590的对接工作中。590芯片在性能上较为出色,其FP16运算能力达到315 TOPS。目前,寒HWJ正在进行小批量的生产和分配,总产量1000-2000片,每家合作伙伴大约能收到几十片芯片。公司计划在清明节前后对第二次送样的产品再测试,590将在4月中下旬完成第一阶段测试。测试的目的是确保公司的几个模型能够在590芯片上顺利运行,并进行推理的对比测试与性能测试。测试完成后,公司预计会下一个小订单,数量在500-1000片之间。在2Q24,公司预计将从HW收到约1000片芯片,从HWJ收到500-1000片,然后再进行小集群测试。如果这些芯片在2Q24运行顺利,公司计划从华为购买约2万片芯片,从HWJ购买几于片。尽管英伟达的机器在公司的总订单中仍占较大比例,但公司希望国产机器的使用量占比在20%-30%。
另外,公司目前正在期待深算三号芯片的到来。深算二号芯片在性能上表现较弱,仅能提供几十Tops的推理能力。尽管深算三号日前仍在研发阶段,其样品尚未交付给公司,但我了解到,深算三号正在其自家通信公司进行测试,例如中科曙光已经获得了一些样品。我估计,深算三号的样品将在3Q24:即7月份左有提供给公司。如果深算三号芯片符合公司的预期,公司将考虑将其纳入公司的选项之中。海光公司在CPU时代与阿里已有广泛的合作,目前公司在CPU领域已有多个供应商,包括AMD、英特尔、海光以及公司自研的CPU,这些产品都已经进入大规模量产阶段。因此,一旦海光的DCU产品问世,公司也计划进行尝试。海光的一个优势在于其与CUDA的兼容性较好,这将减少公司在适配过程中的工作量。然而,英伟达在3月份出台了一项政策,禁止使用最新版本的CUDA进行适配。这意味着深算三号可能需要解决与新版本CUDA兼容性的问题。目前,1.6版本之前的CUDA不会受到影响,但1.6版本之后的可能会带来一些障碍。因此,公司将密切关注深算三号如何解决这一挑战。在24H1,公司的合作主要集中在华为、寒武纪和海光这三家公司,暂时无法分配精力给其他合作伙伴。
关注更多纪要可以关注我哟!↓↓↓
Patrick: 训练时给予不同的芯片硬件并在训练后将模型转换为统一的数据格式进行推理,这种操作的性能损失有多少?
专家:这不是业界常用的操作。传统上,业界倾向于使用与训练相同类型的芯片进行推理,例如使用 CUDA芯片进行CUDA推理。这种做法的前提是芯片供应充足,无需担心购买问题。公司线上运营的还是传统的方式,即CUDA芯片训练用CUDA推理,而现在公司正在转向异构计算架构。在这种新的架构下,公司从训练设计阶段开始探索,公司预计,如果在910B芯片上训练模型,然后将其转换为ONNX格式,并在英伟达GPU上运行,可能会遇到大约15%-20%的精度和准确性损失,以及推理速度的下降。为了减少这些性能损失,公司正在采取一系列措施。首先,公司通过量化,推出FP8和FP16版本,对模型进行采集、蒸馏。同时,公司将采用高效的推理引擎,如TensorRT和MCNN,以加速推理过程。在模型架构方面,公司正在从端到端的架构转向MOE架构。MOE架构能够提高推理速度,并且在训练时能够更有效地利用算力资源,因为它允许分专家训练,然后再合并模型。公司公从这方面提升训练,但其目前还在内部研发阶段,尚未对外发布,但它们是未来发展的趋势。
Patrick: 现在的AI芯片迭代的生命周期多长?
专家:在芯片的使用和迭代方面,首先需要考虑的是芯片的使用频率。如果芯片全天侯运行,即每天24小时,每局7天都在使用,那么其预期寿命可能只有三年。相反,如果芯片的使用频率较低,例如只有60%的时间在使用,或者在某些时段(如假期〉会断电休息,那么其使用寿命可能会延长至四年到四年半。以目前使用的V100、T4芯片为例,它们已经运行了四年到四年半的时间,仍然会定期让它们休息。至于芯片的迭代速度,英伟达作为最先进的AI芯片制造商,已经规划了未来8年的产品路线图,包括B100、B200以及未来的芯片。英伟达的迭代周期大约是每一年到一年半推出一代新芯片,这意味若芯片的更新速度已经快于其使用寿命。
在国内,芯片的迭代速度可能会慢一些。一方面,国内芯片制造商还没有上量,快速达代可能不会带来太大的效益。另一方面,国内芯片的迭代更多是小规模、逐步地改进,例如910B和910C通过 Chiplet技术对芯片内部的某些部分进行局部改进如增大HBM或更换核心的小芯片,但整体架构你持不变。对于像B200这样的全新架构芯片,国内的开发周期可能至少需要两年。英伟达之所以能够快速迭代,足因为其采用了统一架构的策略,即每个系列〈如B系列、A系列、H系列〉都有自己独立的迭代路径。这种策略使得英伟达能够在同一架构下快速推出新版本。
嘿,如果你的小心脏被这篇文章激发了共鸣,那真是太棒了!现在是时候展现你的热情了,点击“在看”,关注哟!
国产华为、寒武纪、海光算力最近纪要 4.13
国产算力最新排名!英伟达、华为,然后是寒武纪就是这样一个排序。
国产算力最新排名!英伟达、华为,然后是寒武纪就是这样一个排序。国产算力最新排名!英伟达、华为,然后是寒武纪就是这样一个排序。