阿里Qwen2重磅发布：全面超越Llama 3，成为开源第一模型

2024-06-06 20:28#1 标记1

Hello Qwen2!
‍
刚刚阿里Qwen2大模型重磅发布！在大量基准评估中获得 SOTA 性能。代码和数学性能显著提高，全面超越llama3
Qwen2 来了
Qwen2基本概况
5 种尺寸的基本模型和instruct模型：
Qwen2-0.5B‍
Qwen2-1.5B‍
Qwen2-7B‍
Qwen2-57B-A14B
Qwen2-72B！
这些模型在代码、数学和多语言能力方面得到了全面增强和显著提高。这些模型支持至少 32K 字节的上下文长度，Qwen2-72B-Instruct 可支持 128K 字节
详情可参考以下链接‍‍
BLOG: https://qwenlm.github.io/blog/qwen2/
HFcollection:https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
https://modelscope.cn/organization/qwen‍
GitHub: https://github.com/QwenLM/Qwen2
Qwen2性能‍‍‍
在基础模型和指导模型方面，与最先进的开源模型（如 Llama-3）相比，Qwen2-72B 在各种基准测试中都取得了普遍优势

Qwen2-72B-Instruct 在提高核心能力和符合人类偏好之间取得了平衡

在上下文长度方面，根据 "大海捞针 "的实验推荐了最大上下文长度。根据测试观察，小型模型可以支持大约 32K 标记，MoE 可以支持 64K 标记，而 7B 和 72B 可以支持 128K 标记！

所有模型都采用了 GQA，推理成本随之降低。对于小型模型，对嵌入进行绑定，以提高非嵌入参数的比例

尽管具有对陌生语言的泛化能力，但仍然明确地用英语和中文以外的 27 种语言的数据对模型进行了训练，因此它在多语言评估中取得了具有竞争力的表现

与 Qwen1.5 相比，Qwen2 在编码和解决数学问题方面的能力有了相当大的提高

⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

Qwen2👇👇