实测 | 用 4090D 跑 Llama3 跟坐火箭一样快

2024-05-31 14:37#1 标记1

01
昨天，我们在本地安装好了 Llama3，今天开始就准备做一系列实测，测测 Llama3 的能力边界，也测测 4090D 的能力边界。
这是很有必要的，如果你要上生产环境，你得知道他能做啥，不能做啥，扬长避短。
不然就像大炮打蚊子，指甲刀切肉，都不太合适。
就像那年我开赛车时候，也是要先熟悉车的情况，油门踩死能开多快，刹车踩到什么程度能刚好漂移过弯儿。
同时也要熟悉赛道的情况，每一个弯道的刹车点在哪，怎么切弯儿，天气晴怎么开，下雨天都是泥水怎么开，都得了然于胸才行。
这都是一个道理。
02
回到正题，先来测试一下本地跑 Llama3 8B 的速度有多快。
我们用一个指标来衡量，最简单的就是 token/s，意思是每秒能生成几个“字儿”。
你好，写个800token的故事

当然，它目前输出中文的能力不太行，不过没关系，我们先只测生成速度。
在生成的一瞬间，我手动点开秒表计时器，拼手速的时候到了。

在生成完毕的一瞬间，我按下暂停。
除去人的反应时间，大概生成完毕是9s左右，为了方便计算，此处取9s。
计算生成速度公式：
生成速度 = 总 token 数量 / 生成时间
现在我们需要计算一些总 token，也很方便，打开一个在线计算 token 数的网站，把 Llama3 生成的内容复制进去即可。

一共约 610 token。
为何跟我们要求的 800 token 不一样呢？
我猜测有大概两点原因：1.是 Ollama 训练的模型计算 token 数量的规则与 chatGPT 不一致，2.是 Llama3 可能有幻觉问题，生成的未必准确。
这个在线计算 token 数的规则，是与 gpt3.5 保持一致的。
那么根据前面的公式，算出来我本地用 4090D，跑 Llama3 8B 的开源模型，速度大概是 67.7 token/s。
03
这个速度其实很快了，朋友在 mac 上跑的同样模型，生成速度肉眼可见的慢，一分钟才吐出一个 hi。
当然，离号称世界上最快的 AI -- Groq，每秒大概 800 个 token 的生成速度，还差了一个数量级。
不过现在大家都还用不上，也只能作为一个比较标准了。
如果小伙伴们还有其他想测试的，都可以在评论区提出你的奇思妙想，我尽力帮你实现！
04
我是想象力AI，写过很多个有意思的自动化机器人，有小红书自动发图、抖音自动涨粉、和微信自动加好友拉群等等。
如果你感兴趣的话，千万记得要加我 aiaiai2098，一起交流。
往期文章：
盘点一下之前写过的AI、RPA机器人（内附使用教程）
当我把1340条笔记喂给kimi时，它比我还懂我自己。
必看！RPA 自动化开发效率增加100%
记录 | 学习实践 AI 一年，我赚了多少钱？