谷歌最新 Gemma 2 模型来了:全新架构、单卡全精度极速推理、中文理解能力挺强!


Google DeepMind 发布了最新的 Gemma 2 大语言模型,该模型包含 9B 和 27B 两种规模,采用全新架构设计,性能和效率在同类产品中处于领先地位。

Google DeepMind 在新设计的架构上构建了 Gemma 2,旨在实现卓越的性能和推理效率。让它脱颖而出的原因如下:
超强性能:Gemma 2 的尺寸为 27B,在其尺寸级别中提供了最佳性能,甚至为尺寸两倍以上的模型提供了有竞争力的替代品。 9B Gemma 2 型号还提供同类领先的性能,优于 Llama 3 8B 和同尺寸类别中的其他开放型号。
高效和成本节省:27B Gemma 2 模型旨在在单个 Google Cloud TPU 主机、NVIDIA A100 80GB Tensor Core GPU 或 NVIDIA H100 Tensor Core GPU 上以全精度高效运行推理,从而在保持高性能的同时显着降低成本。这使得人工智能部署更加容易访问且经济实惠。
跨硬件的极速推理:Gemma 2 经过优化,可以在各种硬件上以令人难以置信的速度运行,从功能强大的游戏笔记本电脑和高端台式机到基于云的设置。在 Google AI Studio 中以全精度尝试 Gemma 2,通过 CPU 上的 Gemma.cpp 的量化版本解锁本地性能,或者通过 Hugging Face Transformers 在配备 NVIDIA RTX 或 GeForce RTX 的家用计算机上运行。
接下来,我将介绍如何使用 Ollama 在本地运行最新的 Gemma 2 9B 和 Gemma 2 27B 模型。
近期热文
当 AI 遇上爬虫:让数据提取变得前所未有的简单!
2024 年最完整的 AI Agents 清单来了,涉及 13 个领域,上百个 Agents!
超强 OCR 神器:支持批量 OCR、文档识别、公式识别,离线可用、完全免费!
Ollama 运行 Gemma 2
首先,先确保你电脑已经安装 ollama[1],同时升级到最新的 0.1.47 版本。

成功安装 ollama 之后,可以在命令行输入以下命令来运行 Gemma 2 9B(5.5G) 或 Gemma 2 27B(16G) 模型:
ollama run gemma2# Orollama run gemma2:27b
运行该命令后,会自动下载 Gemma 2 9B 或 Gemma 2 27B 模型。如果你的电脑拥有足够的内存,可以使用以下命令安装非量化的版本,即使用高精度的版本,以体验更好效果:
ollama run gemma2:9b-instruct-fp16# Orollama run gemma2:27b-instruct-fp16
除了 ollama 之外,你也可以通过 llama.cpp[2] 或 gemma.cpp[3] 来体验 gemma 2。
使用 Gemma 2 9B 大模型
基本聊天
文本翻译

原文:Now we’re officially releasing Gemma 2 to researchers and developers globally. Available in both 9 billion (9B) and 27 billion (27B) parameter sizes, Gemma 2 is higher-performing and more efficient at inference than the first generation, with significant safety advancements built in. In fact, at 27B, it offers competitive alternatives to models more than twice its size, delivering the kind of performance that was only possible with proprietary models as recently as December. And that’s now achievable on a single NVIDIA H100 Tensor Core GPU or TPU host, significantly reducing deployment costs.
译文: 我们正式向全球的研究人员和开发者发布了 Gemma 2。Gemma 2 现在提供 90 亿 (9B) 和 270 亿 (27B) 参数两种规模,相较于第一代模型,性能更高,推理效率更高,并且内置了显著的安全改进。实际上,在 27B 参数规模下,它可以与参数规模超过其两倍的模型相媲美,并提供与去年 12 月仅限于专有模型可实现的性能。并且,这一切现在可以在单个 NVIDIA H100 算子核心 GPU 或 TPU 主机上实现,大大降低了部署成本。
写高考作文
新课标I卷
阅读下面的材料,根据要求写作。 随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少? 以上材料引发了你怎样的联想和思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。
生成作文题目
知识的海洋与问题的无限
生成作文内容
互联网的普及和人工智能的应用如同掀起了一股知识洪流,无数问题都能在瞬间找到答案。这令人欣喜若狂,也引发了人们对于未来问题的思考:随着问题答案唾手可得,我们的问题是否会越来越少?
表面上看,这个问题似乎是显而易见的。当我们能轻易查阅百科全书,获得权威解答,自然会减少一些“事无巨细”的询问。然而,问题的本质并非仅仅在于“答案”本身,更在于“探索”的过程,在于“思考”的火花。
知识的海洋浩瀚无垠,而问题如同探险家,带领我们深入海洋深处,探索未知领域。当我们 posed 一个问题,我们实际上是在开启一场思考之旅,在探索知识的边界,在挑战自身的认知局限。
人工智能的强大在于它能快速检索和处理海量信息,为我们提供精准的答案。然而,它无法代替我们思考的过程,无法引导我们深入问题本质,无法激发我们对未知的渴望。
问题是人类进步的动力。它促使我们思考、探索、创新,推动人类文明的不断发展。从古至今,无数伟大的思想家、科学家、艺术家,都是通过提出问题、探索答案,最终开创了属于自己的领域。
例如,牛顿的万有引力定律,源于他对苹果坠落现象的思考;爱因斯坦的相对论,源于他对时间和空间的质疑;而达芬奇的艺术创作,源于他对人体的观察和对美的追求。
这些都是问题引发的思考,最终成就了人类文明的辉煌。
因此,即使在知识唾手可得的时代,问题依然是不可或缺的。我们需要培养批判性思维,学会提出更深层次、更富有意义的问题。
我们可以将问题细化到更具体、更精准的层面,例如,不仅仅是“地球是圆的”,而是“地球的自转和公转是如何影响着我们生活的?”
我们可以将问题与现实生活联系起来,例如,不仅仅是“人工智能是什么”,而是“人工智能如何影响着我们的社会发展?”
我们可以将问题与个人价值观和人生目标相结合,例如,不仅仅是“我应该做什么”,而是“我想要过什么样的生活?”
当我们学会提出更深层次、更富有意义的问题,我们就能在知识的海洋中游刃有余,不断探索、不断成长,最终找到属于自己的方向。
互联网和人工智能是工具,而问题是动力。让我们用智慧去引导工具,用思考去点燃火花,让问题成为我们前进的道路,让知识的海洋成为我们探索的乐园。
LangChain
from langchain_community.llms import Ollamallm = Ollama(model="gemma2")llm.invoke("Why is the sky blue?")
LlamaIndex
from llama_index.llms.ollama import Ollamallm = Ollama(model="gemma2")llm.complete("Why is the sky blue?")
https://ollama.com/library/gemma2
往期文章
超强 MedicalGPT:训练医疗领域大模型,支持 Qwen-2 和 Llama-3 等十几种开源模型!
30.3K Star 超强工具:让你用本地微信聊天记录,训练你的专属 AI 聊天助手!
开源流式数字人来了:实现音视频同步对话,基本可达商用效果!
PDF 转 Markdown 神器,精准且快速:支持 90 多种语言 OCR,还支持提取表格、图片和公式!
自动化爬虫神器:把网页转成大模型所需数据,助力 AI 应用与大模型训练全面优化!
欢迎您与我交流 AI 技术/工具

关注 AI 真好玩,带你玩转各类 AI 工具,掌控数字未来!
如果这篇文章对您有所帮助,请点赞、关注,并分享给您的朋友。感谢您的支持!
参考资料
[1] 
ollama: https://ollama.com/[2] 
llama.cpp: https://github.com/ggerganov/llama.cpp[3] 
gemma.cpp: https://github.com/google/gemma.cpp
到顶部