开源首次超越GPT-4o,Llama 3.1超大杯405B跑分泄露,下载链接已出

梦晨 发自 凹非寺量子位 | 公众号 QbitAI
最强开源大模型Llama 3.1,漏成筛子了。
Llama-3.1-405B超大杯版本,在来自微软Azure-ML GitHub账户的多项评测中超越GPT-4o,甚至70B版本也能和GPT-4o打个有来有回。
附加说明中强调,这还是base模型的评测结果,经过对齐训练的instruct模型分数还可能提高。

并且,下载链接、模型卡(包含官方跑分结果)、配置文件通通泄露,虽然未经官方证实,还是引起大量讨论。

如果数据准确,那么最强开源大模型,就是最强大模型了。
与此同时,来自ICML现场的消息,3.1系列模型将于7月23日(北京时间7月24日)正式发布,PyTorch创始人Soumith Chintala在演讲中确认。
Llama 3.1亮点总结
根据泄露版模型卡,Llama 3.1亮点如下:
instruct模型针对多语言对话进行了优化,明确宣传了“以多语言文本和代码作为输出模式”。
每个版本的上下文窗口都从8k增加到128K,足足扩大16倍。
训练在 H100-80GB上累计使用了3900万GPU时,其中8B为150万,70B为700万,最大头405B占用3100万GPU时。
在来自公开数据的约15万亿tokens上训练。微调数据包括公开可用的指令数据集,以及超过2500万个合成数据示例。


Llama 3.1版本日前刚刚曝光,不仅超大杯版405B将发布,此前已经发布的Llama 3 8B和70B型号也会升级到3.1版本。
为了更直观展示升级幅度,Smol AI团队根据目前泄露版模型卡中的数据制作了对比表格。
对于8B中杯,3.1相对3.0有大幅提升,似乎在更难的任务上提升幅度更大。
对于70B大杯,3.1版本仅在数学和API调用上提升较大。
并不存在3.0-405B,而蒸馏得出的3.1-70B并不比超大杯405B落后太多。
对于405B超大杯,对比闭源旗舰模型还有差距,与微软Azure-ML版本的测试结果不同。
目前还缺少长上下文利用方面的评估,以及视觉理解方面的评估(多模态版本推迟了)。

根据泄露的磁力链接,405B模型权重将占用820GB硬盘空间。
配置文件中则声明原生精度为bf16,而根据此前泄露的HuggingFace仓库,将会发布FP8官方量化版。

新开源协议:可以使用Llama 3改进其他模型
还有人对比了随Llama 3.1而来的新开源协议全文,从中也发现惊喜:
取消了禁止使用Llama 3改进其他模型的规定。

不过也随之附加了一条规定:
所有使用Llama输出结果训练、微调或以其他任何方式改进的模型,都应在模型名称的开头包含“Llama”。

OpenAI还有后手?
鉴于OpenAI有拿新品狙击同行的事迹。
比如用Sora狙击Gemini 1.5 Pro,GPT-4o和《Her》模式狙击谷歌Astra……
这次GPT-4o的SOTA地位遭到挑战,如果OpenAI手里有货很难不出手吧。
目前,奥特曼个人账号沉寂了一个周末之后,已经开始预热。‍‍

本周也将是大模型狂欢的一周。
参考链接:[1]https://pastebin.com/clone/9jGkYbXY[2]https://x.com/Teknium1/status/1815443354735571232[3]https://x.com/swyx/status/1815553411808653513
— 完 —
量子位年度AI主题策划正在征集中!
欢迎投稿专题 一千零一个AI应用,365行AI落地方案
或与我们分享你在寻找的AI产品,或发现的AI新动向

点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~ 

到顶部