实测 | 用 4090D 跑 Llama3 跟坐火箭一样快


01
昨天,我们在本地安装好了 Llama3,今天开始就准备做一系列实测,测测 Llama3 的能力边界,也测测 4090D 的能力边界。
这是很有必要的,如果你要上生产环境,你得知道他能做啥,不能做啥,扬长避短。
不然就像大炮打蚊子,指甲刀切肉,都不太合适。
就像那年我开赛车时候,也是要先熟悉车的情况,油门踩死能开多快,刹车踩到什么程度能刚好漂移过弯儿。
同时也要熟悉赛道的情况,每一个弯道的刹车点在哪,怎么切弯儿,天气晴怎么开,下雨天都是泥水怎么开,都得了然于胸才行。
这都是一个道理。
02
回到正题,先来测试一下本地跑 Llama3 8B 的速度有多快。
我们用一个指标来衡量,最简单的就是 token/s,意思是每秒能生成几个“字儿”。
你好,写个800token的故事

当然,它目前输出中文的能力不太行,不过没关系,我们先只测生成速度。
在生成的一瞬间,我手动点开秒表计时器,拼手速的时候到了。

在生成完毕的一瞬间,我按下暂停。
除去人的反应时间,大概生成完毕是9s左右,为了方便计算,此处取9s。
计算生成速度公式:
生成速度 = 总 token 数量 / 生成时间
现在我们需要计算一些总 token,也很方便,打开一个在线计算 token 数的网站,把 Llama3 生成的内容复制进去即可。

一共约 610 token。
为何跟我们要求的 800 token 不一样呢?
我猜测有大概两点原因:1.是 Ollama 训练的模型计算 token 数量的规则与 chatGPT 不一致,2.是 Llama3 可能有幻觉问题,生成的未必准确。
这个在线计算 token 数的规则,是与 gpt3.5 保持一致的。
那么根据前面的公式,算出来我本地用 4090D,跑 Llama3 8B 的开源模型,速度大概是 67.7 token/s。
03
这个速度其实很快了,朋友在 mac 上跑的同样模型,生成速度肉眼可见的慢,一分钟才吐出一个 hi。
当然,离号称世界上最快的 AI -- Groq,每秒大概 800 个 token 的生成速度,还差了一个数量级。
不过现在大家都还用不上,也只能作为一个比较标准了。
如果小伙伴们还有其他想测试的,都可以在评论区提出你的奇思妙想,我尽力帮你实现!
04
我是想象力AI,写过很多个有意思的自动化机器人,有小红书自动发图、抖音自动涨粉、和微信自动加好友拉群等等。
如果你感兴趣的话,千万记得要加我 aiaiai2098,一起交流。
往期文章:
盘点一下之前写过的AI、RPA机器人(内附使用教程)
当我把1340条笔记喂给kimi时,它比我还懂我自己。
必看!RPA 自动化开发效率增加100%
记录 | 学习实践 AI 一年,我赚了多少钱?

到顶部