开源首次超越GPT-4o，Llama 3.1超大杯405B跑分泄露，下载链接已出

2024-07-23 02:51#1 标记1

梦晨发自凹非寺量子位 | 公众号 QbitAI
最强开源大模型Llama 3.1，漏成筛子了。
Llama-3.1-405B超大杯版本，在来自微软Azure-ML GitHub账户的多项评测中超越GPT-4o，甚至70B版本也能和GPT-4o打个有来有回。
附加说明中强调，这还是base模型的评测结果，经过对齐训练的instruct模型分数还可能提高。

并且，下载链接、模型卡（包含官方跑分结果）、配置文件通通泄露，虽然未经官方证实，还是引起大量讨论。

如果数据准确，那么最强开源大模型，就是最强大模型了。
与此同时，来自ICML现场的消息，3.1系列模型将于7月23日（北京时间7月24日）正式发布，PyTorch创始人Soumith Chintala在演讲中确认。
Llama 3.1亮点总结
根据泄露版模型卡，Llama 3.1亮点如下：
instruct模型针对多语言对话进行了优化，明确宣传了“以多语言文本和代码作为输出模式”。
每个版本的上下文窗口都从8k增加到128K，足足扩大16倍。
训练在 H100-80GB上累计使用了3900万GPU时，其中8B为150万，70B为700万，最大头405B占用3100万GPU时。
在来自公开数据的约15万亿tokens上训练。微调数据包括公开可用的指令数据集，以及超过2500万个合成数据示例。
‍

Llama 3.1版本日前刚刚曝光，不仅超大杯版405B将发布，此前已经发布的Llama 3 8B和70B型号也会升级到3.1版本。
为了更直观展示升级幅度，Smol AI团队根据目前泄露版模型卡中的数据制作了对比表格。
对于8B中杯，3.1相对3.0有大幅提升，似乎在更难的任务上提升幅度更大。
对于70B大杯，3.1版本仅在数学和API调用上提升较大。
并不存在3.0-405B，而蒸馏得出的3.1-70B并不比超大杯405B落后太多。
对于405B超大杯，对比闭源旗舰模型还有差距，与微软Azure-ML版本的测试结果不同。
目前还缺少长上下文利用方面的评估，以及视觉理解方面的评估（多模态版本推迟了）。

根据泄露的磁力链接，405B模型权重将占用820GB硬盘空间。
配置文件中则声明原生精度为bf16，而根据此前泄露的HuggingFace仓库，将会发布FP8官方量化版。

新开源协议：可以使用Llama 3改进其他模型
还有人对比了随Llama 3.1而来的新开源协议全文，从中也发现惊喜：
取消了禁止使用Llama 3改进其他模型的规定。

不过也随之附加了一条规定：
所有使用Llama输出结果训练、微调或以其他任何方式改进的模型，都应在模型名称的开头包含“Llama”。

OpenAI还有后手？
鉴于OpenAI有拿新品狙击同行的事迹。
比如用Sora狙击Gemini 1.5 Pro，GPT-4o和《Her》模式狙击谷歌Astra……
这次GPT-4o的SOTA地位遭到挑战，如果OpenAI手里有货很难不出手吧。
目前，奥特曼个人账号沉寂了一个周末之后，已经开始预热。‍‍

本周也将是大模型狂欢的一周。
参考链接：[1]https://pastebin.com/clone/9jGkYbXY[2]https://x.com/Teknium1/status/1815443354735571232[3]https://x.com/swyx/status/1815553411808653513
— 完 —
量子位年度AI主题策划正在征集中！
欢迎投稿专题一千零一个AI应用，365行AI落地方案
或与我们分享你在寻找的AI产品，或发现的AI新动向

点这里👇关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~