惊了！国产大模型DeepSeek-V2悄然崛起： AI领域的黑马，技术领先，价格屠夫

2024-05-07 22:27#1 标记1

深度求索推出 DeepSeek-V2：最先进的开源 MoE 模型！

亮点：
✅ 在 AlignBench 中排名前三，超过 GPT-4，接近 GPT-4-Turbo‍‍
✅ 在 MT-Bench 中排名前列，可与 LLaMA3-70B 匹敌，超过 Mixtral 8x22B‍‍
✅ 擅长数学、代码和推理‍
✅ 支持 128K 上下文窗口‍
特点：
✅ 创新的架构，拥有2360亿参数，其中210亿个活跃参数‍‍
✅ 无与伦比的 API 价格，同时保持真正的开源和非商业性‍‍
DeepSeek-V2 综合能力
在目前大模型主流榜单中，DeepSeek-V2 均表现出色

✅ 中文综合能力（AlignBench）开源模型中最强，与 GPT-4-Turbo，文心 4.0 等闭源模型在评测中处于同一梯队
✅ 英文综合能力（MT-Bench）处于第一梯队，英文综合能力（MT-Bench）与最强的开源模型 LLaMA3-70B 处于同一梯队，超过最强 MoE 开源模型 Mixtral8x22B
✅ 知识、数学、推理、编程等榜单结果位居前列
✅ 开源模型支持 128K 上下文，对话官网/API 支持 32K 上下文
价格背后都是技术‍‍‍
DeepSeek-V2最大的重点来了，上价格：‍

和一众友商比一下：

不要以为这只是个价格战，这个价格的背后都是技术，心动不如行动，吓得我连夜改API😂😂，这个价格你受得了吗？
模型架构
DeepSeek-V2 是一个强大、经济、高效的 MoE 语言模型，在注意力机制和稀疏层方面采用了卓越的架构设计：
‍
MLA（Multi-head Latent Attention）：一种更好、更快的注意力，可通过减少 KV 缓存确保高效推理‍‍
DeepSeekMoE：一种新颖的稀疏架构，可通过稀疏计算以经济的成本训练强大的模型。
更多详情，请看技术报告和代码：
https://github.com/deepseek-ai/DeepSeek-V2
使用
与DeepSeek-V2聊天:
http://chat.deepseek.com
即用即付的DeepSeek-V2应用接口:
http://platform.deepseek.com
DeepSeek-V2完全开源，免费用于商业用途:
http://huggingface.co/deepseek-ai
⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

牛夫人👇👇