马斯克兑现承诺开源grok：3140亿参数，混合专家模型，有史以来最大开源模型

2024-03-18 01:38#1 标记1

本文为1023字，建议阅读2分钟

马斯克兑现本周开源自有大模型gork承诺，具体信息如下：
Grok是一个由马斯克的人工智能公司 xAI 从头开始训练的 3140 亿参数混合专家模型，Grok 是一款模仿《银河系漫游指南》的人工智能，本次开源公开了grok的模型权重和网络架构，共 318.24GB ，这个尺寸肯定没法在本地玩了 Smiling face with open mouth and smiling eyes

Smiling face with open mouth and smiling eyes

下载地址：
https://academictorrents.com/details/5f96d43576e3d386c9ba65b883210a393b68210e

为了 Understand the Universe 理念，看来团队特意把参数设定成了圆周率 314B，这是目前规模最大的开源模型，期待今年六月的 Llama 3 加入 Grok 的开源争霸战
这个版本包含了Grok-1在2023年10月完成预训练阶段时的基础模型数据。这意味着模型尚未经过针对特定应用（如对话系统）的微调
Grok 权重通过磁力链接在 Apache 2.0 下发布：https://github.com/xai-org/grok
与其他通常有使用限制的开放权重模型相比，Grok 更为开源。
与 Pythia、Bloom 和 OLMo 相比，Grok 的开源程度较低，因为这些模型都有训练代码和可重现的数据集

模型详细信息：
●3140亿参数构成的混合专家模型,其中25%的参数能够针对特定的数据单元(Token)激活
●xAI团队利用定制的训练技术栈,在JAX和Rust的基础上,从零开始构建了此模型,完成时间为2023年10月
●模型参数数量高达3140亿

●混合专家模型(Mixture of Experts, MoE)
●每一个数据单元(Token)由2位专家处理

●共64个处理层
●用于处理查询的有48个注意力机制单元(attention heads)

●用于处理键(key)/值(value)的有8个注意力机制单元
●嵌入向量(embeddings)的维度为6,144
●采用旋转式嵌入表示(Rotary Position Embeddings, RoPE)
●使用SentencePiece分词系统处理,包含131,072种数据单元
●支持激活数据分布计算(activation sharding)和8位数字精度量化(8-bit quantization)

●最大序列长度为8,192个数据单元,以处理更长的上下文信息
有网友恶搞扎克伯格，用AI制作了一个扎克伯格辣评马斯克的grok的开源小视频：‍‍‍‍‍‍‍‍‍‍‍‍‍

扎克伯格辣评：‍‍‍
老子有钱” 面对 elon 刚刚发布的grok 人工智能开源计划，扎克刚刚对Grok的发布做出了反应。他并不是很印象深刻。有人对gork开源有很高期待只因为他是马斯克的，结果elon只开源了模型权重（假开源，模型训练数据，训练方法等等还是闭源的），事实上我们的Llama 2是更好的开源模型， 3140亿个参数太多了。你需要有一堆H100，而我已经把它们全部买了😄，回头再见了您！！！
结语
真正的大模型开源应该是：
公开权重、发布训练和推理代码、公开训练数据、评估、适应性和日志
目前grok只开源了权重‍‍
不过马斯克明显站队开源人工智能了，期待后续动作，另外国产大模型又多了一个开源参考了😊
blog：https://x.ai/blog/grok-os
github：https://github.com/xai-org/grok-1
⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

真假开源👇👇