阿里Qwen2重磅发布:全面超越Llama 3,成为开源第一模型



Hello Qwen2!

刚刚阿里Qwen2大模型重磅发布!在大量基准评估中获得 SOTA 性能。代码和数学性能显著提高,全面超越llama3
    Qwen2 来了
Qwen2基本概况
5 种尺寸的基本模型和instruct模型:
Qwen2-0.5B‍
Qwen2-1.5B‍
Qwen2-7B‍
Qwen2-57B-A14B 
Qwen2-72B!
这些模型在代码、数学和多语言能力方面得到了全面增强和显著提高。这些模型支持至少 32K 字节的上下文长度,Qwen2-72B-Instruct 可支持 128K 字节
详情可参考以下链接‍‍
BLOG: https://qwenlm.github.io/blog/qwen2/
HFcollection:https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
https://modelscope.cn/organization/qwen‍
GitHub: https://github.com/QwenLM/Qwen2
Qwen2性能‍‍‍
在基础模型和指导模型方面,与最先进的开源模型(如 Llama-3)相比,Qwen2-72B 在各种基准测试中都取得了普遍优势

Qwen2-72B-Instruct 在提高核心能力和符合人类偏好之间取得了平衡

在上下文长度方面,根据 "大海捞针 "的实验推荐了最大上下文长度。根据测试观察,小型模型可以支持大约 32K 标记,MoE 可以支持 64K 标记,而 7B 和 72B 可以支持 128K 标记!

所有模型都采用了 GQA,推理成本随之降低。对于小型模型,对嵌入进行绑定,以提高非嵌入参数的比例

尽管具有对陌生语言的泛化能力,但仍然明确地用英语和中文以外的 27 种语言的数据对模型进行了训练,因此它在多语言评估中取得了具有竞争力的表现

与 Qwen1.5 相比,Qwen2 在编码和解决数学问题方面的能力有了相当大的提高

⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

Qwen2👇👇
到顶部