2024年7月16日,人工智能公司mistral AI宣布发布两款全新的专业AI模型:Codestral Mamba和MathΣtral。这两款模型分别针对代码生成和数学推理进行了专门优化
Codestral Mamba:高效的代码生成模型
Codestral Mamba是一款基于Mamba2架构的语言模型,专门用于代码生成。该模型采用Apache 2.0许可证发布,可以免费使用、修改和分发
与传统的Transformer模型不同,Mamba模型具有线性时间推理的优势,理论上可以处理无限长度的序列。这使得用户可以与模型进行广泛的交互,无论输入长度如何都能快速得到响应。这种高效性特别适合提高代码生产力
Codestral Mamba在上下文检索能力方面表现出色,可处理长达256k个token的输入。mistral AI团队预计它将成为一个出色的本地代码助手
该模型拥有约72.8亿个参数,可以通过mistral-inference SDK进行部署。用户还可以通过TensorRTLLM部署模型,或等待llama.cpp的支持以进行本地推理
MathΣtral:数学推理的专家
MathΣtral是一款7B参数的模型,专门设计用于数学推理和科学发现。该模型同样采用Apache 2.0许可证发布,具有32k的上下文窗口
MathΣtral基于Mistral 7B模型开发,在STEM(科学、技术、工程和数学)领域进行了专门优化。在多个行业标准基准测试中,它在同等规模的模型中达到了最先进的推理能力。具体而言,MathΣtral在MATH测试中得分56.6%,在MMLU测试中得分63.47%
通过增加推理时间的计算量,MathΣtral可以获得更好的结果。使用多数投票法,其在MATH测试中的得分可达68.37%;使用64个候选项中的强奖励模型,得分可达74.59%
Mistral AI的发展理念
这两款模型的发布体现了mistral AI积极推动的开发理念:为特定目的构建模型可以实现出色的性能/速度权衡。公司在其la Plateforme平台上积极推广这一理念,特别是通过新的微调功能
mistral AI希望通过发布这些专业模型来支持学术项目和科学界。例如,MathΣtral是与Project Numina合作的成果之一,旨在促进需要复杂多步逻辑推理的高级数学问题研究
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
Mistral大招👇