Meta宣布Llama 3细节:真正关键的模型后训练阶段



Meta 推出了Llama 3介绍视频,有几个细节值得分享给大家‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

Llama 3模型本体
Llama 3 训练数据(15万亿token)是Llama 2的7倍,微调数据(1000万条人类标注)是Llama 2的10倍‍‍‍‍‍‍
Llama 3开发思路:四个顶层设计
1. 使用密集自回归Transformer模型架构,除了群组查询注意力机制外还添加了新的分词器
2. 两个自定义的24k H100 超级训练集群用于训练‍‍‍‍‍‍‍‍
3. 真正的关键是后训练阶段:生成了大量人工注释,执行了大量SFT(监督微调)
4. 关注实用性:回答问题能力,事实上的准确性等‍‍‍
Llama 3 其他亮点
开发人员设计了一个从头支持Llama 3的纯粹的PyTorch 微调库torchtune,没有依懒项,已经与HuggingFace 和其他一些库进行了集成‍‍
Llama 3 未来计划
4000 亿参数,支持多种语言 Llama 3 400B还在训练,它是实现Meta多模态AI的关键‍‍
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

Llama 3风暴👇‍
到顶部