太强了！10 大开源大模型！

2024-04-23 04:05#1 标记1

大家好，我是花哥。
大型语言模型（LLMs）无疑是此次AI革命的关键，它们基于Transformer架构，通过预训练大量文本数据，获得惊人的对话和任务处理能力。

然而，目前流行的聊天机器人如ChatGPT、Bard等，都基于专有闭源的LLM，这限制了使用并导致技术信息不透明。因此，开源LLMs正逐渐兴起，它们能增强数据安全性和隐私，节省成本，减少依赖，实现代码透明和模型自定义，同时积极支持社区发展，推动领域创新！
在本文，我会详细介绍下，最新的顶级开源LLMs大模型！
1. LLaMA 3

近期，Meta 重磅发布发布两款开源Llama 3 8B与Llama 3 70B模型，供外部开发者免费使用。Meta表示，Llama 3 8B和Llama 3 70B是目前同体量下，性能最好的开源模型。

LLaMA 无疑是开源模型的顶流，国内好多大模型都是基于它实现的！它通过人类反馈的强化学习（RLHF）进行了微调。它是一种生成文本模型，可以用作聊天机器人，并且可以适应各种自然语言生成任务，包括编程任务。
从其分享的基准测试可以看出，Llama 3 400B+ 的实力几乎媲美 Claude 超大杯以及新版 GPT-4 Turbo，虽然仍有一定的差距，但足以证明其在顶尖大模型中占有一席之地。
模型下载链接：https://llama.meta.com/llama-downloads/
GitHub项目地址：https://github.com/meta-llama/llama3
2. BLOOM

BLOOM 于 2022 年推出，经过与来自 70+ 个国家的志愿者和 Hugging Face 的研究人员为期一年的合作项目，BLOOM 是一种自回归LLM训练，可使用工业规模的计算资源在大量文本数据上继续从提示开始文本。
BLOOM 的发布标志着生成式 AI 开源化的重要里程碑。BLOOM 拥有 1760 亿个参数，是最强大的开源之一LLMs，能够以 46 种语言和 13 种编程语言提供连贯准确的文本。
其透明度是其核心特点，源代码和训练数据均可访问，方便运行、研究和改进。此外，BLOOM可通过Hugging Face生态系统免费使用。
链接：bigscience.huggingface.co
3. BERT

Bert是早期大模的代表作了，其LLM底层技术是基于Transformer的神经架构。
它是由谷歌研究人员于 2017 年在论文《注意力是你所需要的一切》中开发的。
谷歌于 2018 年推出的开源 LLMBERT（代表 Transformer 的双向编码器表示），在许多自然语言处理任务中迅速实现了最先进的性能。
由于其早期的创新功能LLMs及其开源性质，Bert 是最受欢迎和使用最广泛的之一LLMs。目前有数以千计的开源、免费和预训练的 Bert 模型可用于特定用例，例如情感分析、临床笔记分析和有毒评论检测。
但不可否认的是，近年来谷歌对开源大模型的态度确实很冷漠了。
链接：https://github.com/google-research/bert
4. Falcon 180B

如果 Falcon 40B已经给开源LLM社区留下了深刻的印象，那么新的Falcon 180B表明专有和开源之间的差距LLMs正在迅速缩小。
2023 年 9 月，阿联酋技术创新研究所发布了 Falcon 180B 正在接受 1800 亿个参数的训练。凭借这种令人印象深刻的计算能力，Falcon 180B 在各种 NLP 任务中已经超越了 LLaMA 2 和 GPT-3.5。
虽然免费用于商业和研究用途，但需要注意的是，Falcon 180B需要大量的计算资源才能运行。
5. OPT-175B

2022 年开放预训练的 Transformers 语言模型（OPT）的发布标志着 Meta 通过开源LLM战略的又一个重要里程碑。
OPT包括一套仅解码器预训练的转换器，参数范围从125M到175B。OPT-175B性能与GPT-3相似。预训练模型和源代码都向公众开放。
然而，因为OPT-175B是在非商业许可下发布的，只允许将该模型用于研究。
6. XGen-7B

越来越多的公司加入到这场竞赛中LLM来。最后加入擂台的是 Salesforce，它于 2023 年 7 月推出了 XGen-7BLLM。
根据作者的说法，大多数开源LLMs都专注于提供信息有限的大答案（即，几乎没有上下文的简短提示）。XGen-7B背后的想法是构建一个支持更长上下文窗口的工具。特别是，XGen 的高级方差（XGen-7B-8K-base）允许 8K 上下文窗口，即输入和输出文本的累积大小。
效率是 XGen 的另一个重要优先事项，它仅使用 7B 参数进行训练，远不如大多数强大的开源LLMs，如 LLaMA 2 或 Falcon。
尽管 XGen 的尺寸相对较小，但它仍然可以提供出色的结果。该模型可用于商业和研究目的，但 XGen-7B-{4K，8K}-inst 变体除外，该变体已在教学数据和 RLHF 上进行了训练，并在非商业许可下发布。
7. GPT-NeoX 和 GPT-J

GPT-NeoX 和 GPT-J 由非营利性 AI 研究实验室 EleutherAI 的研究人员开发，是 GPT 的两个很好的开源替代品。
GPT-NeoX 有 200 亿个参数，而 GPT-J 有 60 亿个参数。虽然大多数最先进的LLMs参数都可以用超过 1000 亿个参数进行训练，但这两个LLMs参数仍然可以提供高精度的结果。
他们已经接受了来自不同来源的 22 个高质量数据集的训练，使它们能够在多个领域和许多用例中使用。与 GPT-3 相比，GPT-NeoX 和 GPT-J 没有接受过 RLHF 训练。
任何自然语言处理任务都可以使用 GPT-NeoX 和 GPT-J 执行，从文本生成和情感分析到研究和营销活动开发。
两者都LLMs可以通过 NLP Cloud API 免费获得。
8. Vicuna13-B

Vicuna-13B 是一个开源对话模型，通过使用从 ShareGPT 收集的用户共享对话对 LLaMa 13B 模型进行微调而训练而成。
作为一款智能聊天机器人，Vicuna-13B 的应用数不胜数，下面将介绍其中的一些在不同的行业，例如客户服务、医疗保健、教育、金融和旅游/酒店。
初步评估显示，Vicuna-13B 可以90% 以上的案例中优于 LLaMa2 和 Alpaca 等其他模型。
9. Mistral 7B

Mistral 7B v0.2 Base Model ，是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型，后者属于该公司的「Mistral Tiny」系列。此次更新主要包括三个方面：将 8K 上下文提到了 32K；Rope Theta = 1e6；取消滑动窗口。
链接：https://mistral.ai/
10. 零一万物

Yi 系列模型是由 01.AI 从头开始训练的下一代开源大型语言模型。
🙌 以双语语言模型为目标，以3T多语言语料库为目标，Yi系列模型成为全球最强的LLM模型之一，在语言理解、常识推理、阅读理解等方面展现出广阔的前景。例如
Yi-34B-Chat 模型在 AlpacaEval 排行榜上排名第二（仅次于 GPT-4 Turbo），优于其他 LLM（如 GPT-4、Mixtral、Claude）（基于截至 2024 年 1 月的数据）。
Yi-34B模型在各种基准测试中，包括Hugging Face Open LLM Leaderboard（预训练）和C-Eval（基于截至2023年11月的数据）的所有现有开源模型（如Falcon-180B、Llama-70B、Claude）均排名第一。
论文：https://arxiv.org/abs/2403.04652
链接：https://github.com/01-ai/Yi

如何选择适合您需求的开源大模型（LLMs）
开源LLM领域正在迅速扩大。如今，开源大模型比专有闭源大模型多得多，随着全球开发人员合作升级当前LLMs版本并设计更优化的版本，性能差距可能很快就会被弥合。
在这个充满活力和令人兴奋的环境中，可能很难为您的目的选择合适的开源LLM。以下是您在选择一个特定的开源LLM之前应该考虑的一些因素列表：
您要做什么？这是你必须问自己的第一件事。开源始终LLM是开放的，但其中一些仅出于研究目的而发布。因此，如果您打算创办一家公司，请注意可能的许可限制。
为什么需要？LLM这一点也非常重要。LLMs目前很流行。每个人都在谈论他们和他们无穷无尽的机会。但是，如果你可以在不需要LLMs的情况下建立你的想法，那么就不要使用它们。这不是强制性的（您可能会节省很多钱并防止进一步使用资源）。
您需要多大的精度？这是一个重要的方面。最先进LLMs技术的尺寸和精度之间存在直接关系。这意味着，总体而言，参数和训练数据越大LLM，模型就越准确。因此，如果您需要高精度，则应选择更大的LLMs，例如 LLaMA 或 Falcon。
你想投资多少钱？这与前一个问题密切相关。模型越大，训练和操作模型所需的资源就越多。这意味着要使用的额外基础设施或云提供商的更高账单，以防您想LLM在云中操作。LLMs是强大的工具，但它们需要大量资源才能使用它们，即使是开源的。
你能用预训练的模型实现你的目标吗？如果您可以简单地使用预训练模型，为什么还要投入金钱和精力从头开始训练？LLM有许多针对特定用例LLMs训练的开源版本。如果您的想法适合这些用例之一，那就去做吧。

结语
IT历史的发展说明了开源是软件领域的重要趋势，推动了应用生态的繁荣。然而，从GPT3开始，Open AI选择了闭源，导致开源大模型基本停滞在GPT3.5水平。目前，业界口碑较好的开源大模型包括Meta的LLaMA3、Mistral的Mistral 8x7B 以及零一万物的Yi-34B等。
不可否认的是，开源方式更适合做生态，但受限于算力和算法等，原有集众智的开源模式能不能在大模型领域上发展还是个问号，也有一些观点称开源模型将会越来越落后，如今 Llama 3 的到来，为开源模型扳回一局，但这场关于开源与闭源的辩论还远未结束。
让我们拭目以待吧！