1000亿美元宇宙级豪赌!微软OpenAI打造星际之门AI超算,电力能耗惊人




【导读】炸裂消息!据外媒透露,微软和OpenAI正豪掷超千亿美元,欲打造一台「星际之门」超算。最快在2028年,「星际之门」就要启动了。而它对电力的需求,将达到前所未有的程度。
就在刚刚,又有大消息曝出。
据外媒The Information报道,微软和OpenAI正计划建设一个名为「星际之门」(Stargate)的特殊数据中心,为后者提供强大的计算支持。
具体来说:
微软高层计划最快在2028年启动该项目
这台超算对电力的需求将前所未有地高
OpenAI将在明年初发布下一次重大升级

这个「星际之门」超算,会配备数百万专用的服务器芯片!项目的成本,预计高达1150亿美元。
而如此庞大的资金支出,将由微软买单。
据悉,「星际之门」推出的时间预计在2028年,并且2030年之前会进一步扩建。
最终,它所需要的电力,很可能高达5千兆瓦。
就在本周三,我们刚刚报道过OpenAI把微软电网搞崩的消息。当时微软工程师曝出,为GPT-6部署10万个H100训练集群时,整个电网发生了崩溃。
如今看来,这个十万卡集群,很可能就是「星际之门」的早期雏形。
GPT-5不断延期,微软能回本吗?
与当今一些最大规模的数据中心相比,「星际之门」的成本直接高出100倍!
在微软和OpenAI未来六年计划建设的一系列超算设施中,它是最大的一个。
而敢砸这么多钱,也反应出微软和OpenAI对AI前景的巨大信心。
在十年内,这将是双方最关键、最重大的合作。
不过话说回来,毕竟是1000亿美元的巨额投资,微软确定能「回本」吗?
此前,微软已经向OpenAI投资超过130亿美元,让OpenAI能用微软的数据中心跑ChatGPT。
而作为回报,微软得到的是对OpenAI技术核心的访问权限,并且可以将该技术独家提供给摩根士丹利之类的云计算客户。另外,Office、Teams、Bing的AI Copilot中,也可以整合OpenAI的技术。

接下来,「星际大门」能否如期推进,就看GPT-5的性能究竟能有多大的提升了。
传说中的GPT-4.5、GPT-5,多次被传要来,最终却还是一场空。
这也让OpenAI对微软「如期交付新模型」的承诺,打了水漂。
部分人士表示灰心:看来AI的发展前景难以预测。
然而Sam Altman坚决否认:绝非如此!在他看来,制约GPT-5发展的主要障碍,就是缺乏足够的服务器。
电力+芯片,耗资惊人
如果「星际之门」成真,那它提供的算力,将远超现在的微软凤凰城数据中心。
微软凤凰城数据中心
而电力和芯片上的投入,也都将是一笔巨资。
经初步计算,「星际之门」要想运转,需要的是至少数千兆瓦的电力,相当于目前几个大型数据中心所需的电力。
另外,芯片的采购也是一个大成本。
开弓没有回头箭,如此耗费巨大的投入,能得到什么样的结果?
当然是AGI。
Digital Realty的首席技术官Chris Sharp指出,如果是为了实现AGI,这种投资规模的项目绝对是必要的。
虽然项目的规模令人咋舌,闻所未闻,但一旦这种超算建成,人们就会接受它的巨额成本。
AI超算第五阶段:「星际之门」
Altman与微软的员工们把AI超算的发展划分为五个阶段,而最终阶段就是星际之门。
这个名字灵感来自于一部科幻电影,其中科学家发明了一台能够实现星系间旅行的装置。
当然了,这个代号虽然是由OpenAI提出的,但它并不会被微软正式采用。

在「星际之门」之前,需要的资金相对较少,但依然远超当前数据中心的建设成本。
目前来说,微软和OpenAI还处于第三阶段。
但第四阶段的超算已经破土动工,并且预计将在2026年左右推出。
据报道,微软光扩建数据中心就要耗资10亿美元,而最终造价可能将高达100亿美元。
其中,计划采用的英伟达AI芯片,将会是开销的大头。
对此业内人士分析称,当前正在建设的以AI为重点的数据中心,其芯片成本通常要占到总投资的一半。

总体而言,想要最终完成「星际之门」计划,可能会需要消耗超过1150亿美元——这一数字是微软去年在服务器等设备上支出的3倍还多。
而基于2023年下半年公布的资本支出速度,微软2024年的支出预计将达到约500亿美元。
Altman:芯片不够用,谷歌算力都比我们多
之所以如此下本,是因为Altman对于自己手里的算力,非常不满。
他不仅公开表示现有的AI服务器芯片数量严重不足,而且还在私下里表示,作为主要竞争对手之一的谷歌,将会在短期内拥有比OpenAI更多的算力。

随着对英伟达GPU的需求急剧上升,像微软和OpenAI这样的客户,都不得不面临成本上涨的问题。
而这也是Altman为什么想要创办公司,并开发出能媲美英伟达GPU的芯片的的原因之一。
除了控制成本外,微软支持Altman开发替代芯片还有其他潜在的考虑。
GPU市场的繁荣让英伟达成为了一个关键的决策者,它不仅可以决定哪些客户能够获得更多的芯片,并且还会支持一些与微软竞争的小型云服务供应商。甚至,连英伟达自己也开始向客户卖云服务了。

而「星际之门」的提出,便是让微软和OpenAI有了除英伟达之外的选择,比如AMD的GPU,或者微软最近推出的自研AI芯片。
技术难题:芯片过热、网络电缆,还有能源
「星际之门」的设想虽然宏大,但要真的实现,还得攻克多项技术难题。
比如,其中一个设计方案,是在单个机架中安装比微软以往更多的GPU,来提升芯片的工作效率和性能。
然而,这无疑会增加GPU的密集度,因此微软就需要设计出有效的冷却方案,来避免芯片过热。
另外,如何连接数以百万计的GPU也是个难题。
这就涉及到选择合适的网络电缆,它对迅速传输大量数据至关重要。
目前,微软在超算中使用的是英伟达专有的InfiniBand。但我们都知道,OpenAI一直在努力摆脱对英伟达依赖。

因此,OpenAI希望「星际之门」能采用更通用的以太网电缆。

另外,在能源这块,据项目内部人士透露,公司们考虑过采用替代能源,比如核能,来满足其能源需求。
值得一提的是,亚马逊近期购入了一个位于宾夕法尼亚州、能够接入核能源的数据中心地块。据了解,微软也对这一地块表现出了兴趣,并曾参与过相关竞标。
Altman个人认为,要实现超级智能的开发,很可能需要在能源领域取得重大突破。
显然,在追求高级人工智能的道路上,能源创新将扮演关键角色,而核能,很可能会成为实现这一目标的重要一环。

总之,跟传统计算相比,AI计算的成本和复杂度都不是一个量级的。
这就是为什么,各大公司对AI数据中心的细节抠得无比严格。GPU如何连接和冷却,一个细节的差异就可能导致巨大的成本损耗。
老黄也早就预测说,为了应对未来对AI计算的需求,在未来四到五年内,全球需要投资1万亿美元来建设新的数据中心!
而芯片过热、网络电缆和能源的问题,在短时间内都没有解决的可能性。

此外,「星际之门」会建在一个数据中心内,还是由多个数据中心紧密相连呢?
它会具体建在什么位置?
目前这些问题也都没有答案。
不过有从业者表示,当GPU集群位于同一个数据中心时,效率会更高。

其实,OpenAI早已逼着微软突破了自己的极限。
自2019年向OpenAI投资以来,微软的数据中心在一直不停地惊人进化。
为了满足OpenAI日益增长的算力需求,微软咬牙造了第一台GPU超算,其中包含数千个英伟达GPU。
才几年时间,这台超算就让微软烧掉了12亿美元。
而在今年和明年,微软即将为OpenAI提供的新服务器,将包含数十万个GPU!
下一个里程碑:GPT-5
微软和OpenAI的雄心壮志,几乎完全取决于OpenAI是否能在「超级智能」上取得重大进展。
如果OpenAI能解决癌症、核聚变、全球变暖或火星殖民这种级别的问题,金主当然愿意源源不断地投钱。
然而,这样的成就,目前还遥不可及。
尽管ChatGPT和Sora在全球拥有了无数用户,但如何用它们带来显著收入,OpenAI目前还都没有解决。变现所需的时间,可能比预期的更长。

也正因如此,亚马逊和谷歌已经降低了对AI产品的销售预期。
部分原因就是,成本实在太高了!而且,在大型企业中部署百万级用户的应用,需要耗费大量的工作。
Altman在上个月曾表示,当研究人员投入更多的算力时,AI模型会变得「可预见地更好」。对此,OpenAI称之为对话式AI的「缩放定律」(scaling law)。
据知情人士透露,OpenAI计划在明年初之前发布其下一代LLM。
而在那之前,可能会推出一些小幅改进版本。
而拥有更多的服务器,无疑会增加OpenAI的底气,坚信AI模型会取得下一层级的突破。
例如传闻中的Q*,据说能解决之前未经训练的数学问题。而且,它是用合成数据训练的。在人类数据即将耗尽之际,这一点至关重要。
此外,传闻这些模型还能识别出现有模型,如GPT-4的缺陷,并提出技术改进,换句话说,就是自我完善的AI。
听起来,OpenAI离AGI是越来越近了。
参考资料:
https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer?rc=epv9gi
人工智能产业链联盟高端社区

相关阅读
【碳中和】珍藏版!22个国内外“碳中和”相关报告合集!
【工业机器人】全球工业机器人详细产业链梳理!
【智能制造】智能制造50大产业链全景图
【智能工厂】智能工厂如何快速落地
【工业技术】航空制造推动新概念机器人发展(上)
【工业技术】航空制造推动新概念机器人发展(下)
【新基建+人工智能生态】全网最火“新基建”生态图谱—人工智能篇(含40个细分领域厂商)
【AI】一文读懂人脸识别技术
【AI】解析 | 人工智能发展及技术架构
【报告】中国人工智能厂商全景报告(附PDF下载)
【AI】(收藏)从 A-Z 全面盘点人工智能专业术语梳理!
【AI】计算机视觉入门大全:基础概念、运行原理、应用案例详解
【AI】一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别
【智能仓储】一文带你彻底搞懂智能仓储!
【深度学习】12张高清思维导图,总结深度学习
【神经网络】给初学者们讲解人工神经网络(ANN)
人工智能的基础--知识分类
【AI产业链】120图勾勒全球AI产业完整图谱!
【AI】一文读懂人工智能产业链
【AI】中国人脸识别产业链全景图!
【AI】史上最全的人工智能(AI)产业链地图!
【芯片】国产芯片大全:70个细分领域代表企业
人工智能产业链深度透析—基础层
人工智能产业链深度透析-技术层
人工智能全产业链深度透析--(综合)
人工智能产业链深度透析—产业应用医疗篇
朱松纯 | 人工智能的现状、任务、构架与统一(上)
朱松纯 | 人工智能的现状、任务、构架与统一(中)
朱松纯 | 人工智能的现状、任务、构架与统一(下)
【AI】美国国家人工智能研发战略规划2019
【智慧农业】2018中国农牧家禽行业智慧养殖白皮书
【智慧农业】2019年智慧农业市场调研及前景研究报告(附PDF下载)
【智能家居】我国智能锁产业现状及未来发展趋势分析
【知识图谱】详解知识图谱关键技术与应用、AI图谱技术在知乎的应用实践、如何构建多快好省的“知识图谱即服务”
荐:
【中国风动漫】《姜子牙》刷屏背后,藏着中国动画100年内幕
【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!
【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

声明
免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)
编辑:Zero




到顶部