本文为1023字,建议阅读2分钟
马斯克兑现本周开源自有大模型gork承诺,具体信息如下:
Grok是一个由马斯克的人工智能公司 xAI 从头开始训练的 3140 亿参数混合专家模型,Grok 是一款模仿《银河系漫游指南》的人工智能,本次开源公开了grok的模型权重和网络架构, 共 318.24GB ,这个尺寸肯定没法在本地玩了
下载地址 :
https://academictorrents.com/details/5f96d43576e3d386c9ba65b883210a393b68210e
为了 Understand the Universe 理念,看来团队特意把参数设定成了圆周率 314B,这是目前规模最大的开源模型,期待今年六月的 Llama 3 加入 Grok 的开源争霸战
这个版本包含了Grok-1在2023年10月完成预训练阶段时的基础模型数据。这意味着模型尚未经过针对特定应用(如对话系统)的微调
Grok 权重通过磁力链接在 Apache 2.0 下发布:https://github.com/xai-org/grok
与其他通常有使用限制的开放权重模型相比,Grok 更为开源。
与 Pythia、Bloom 和 OLMo 相比,Grok 的开源程度较低,因为这些模型都有训练代码和可重现的数据集
模型详细信息 :
●3140亿参数构成的混合专家模型,其中25%的参数能够针对特定的数据单元(Token)激活
●xAI团队利用定制的训练技术栈,在JAX和Rust的基础上,从零开始构建了此模型,完成时间为2023年10月
●模型参数数量高达3140亿
●混合专家模型(Mixture of Experts, MoE)
●每一个数据单元(Token)由2位专家处理
●共64个处理层
●用于处理查询的有48个注意力机制单元(attention heads)
●用于处理键(key)/值(value)的有8个注意力机制单元
●嵌入向量(embeddings)的维度为6,144
●采用旋转式嵌入表示(Rotary Position Embeddings, RoPE)
●使用SentencePiece分词系统处理,包含131,072种数据单元
●支持激活数据分布计算(activation sharding)和8位数字精度量化(8-bit quantization)
●最大序列长度为8,192个数据单元,以处理更长的上下文信息
有网友恶搞扎克伯格,用AI制作了一个扎克伯格辣评马斯克的grok的开源小视频:
扎克伯格辣评:
老子有钱” 面对 elon 刚刚发布的grok 人工智能开源计划, 扎克刚刚对Grok的发布做出了反应。他并不是很印象深刻。有人对gork开源有很高期待只因为他是马斯克的,结果elon只开源了模型权重(假开源,模型训练数据,训练方法等等还是闭源的),事实上我们的Llama 2是更好的开源模型, 3140亿个参数太多了。你需要有一堆H100,而我已经把它们全部买了😄,回头再见了您!!!
结语
真正的大模型开源应该是:
公开权重、发布训练和推理代码、公开训练数据、评估、适应性和日志
目前grok只开源了权重
不过马斯克明显站队开源人工智能了,期待后续动作,另外国产大模型又多了一个开源参考了😊
blog:https://x.ai/blog/grok-os
github:https://github.com/xai-org/grok-1
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
真假开源👇👇