Llama3 8B 和 70B 速度对比，简直就是龟兔赛跑

2024-06-03 15:51#1 标记1

01
实测 | 用 4090D 跑 Llama3 跟坐火箭一样快，在上篇文章中，我用土法测速计算了 Llama3 8B 的生成速度 tks/s，得到是 67.7 tokens/s。
当然，因为是土法测速，纯靠手工，误差较大，十分不妥。
正好有位朋友提供了一个方法，可以靠模型自己计算输出速度有多少。

感谢这位朋友，让我摆脱了土法测速。

本地也装好了 70B 和 8B 版本，今天就简单对比下生成速度。
公平起见，我们采用一样的 prompt，避免场外因素干扰。
02
先在命令行中，输入：
ollama run --help
可以让 chatGPT 帮忙查一下具体的指令，只需要把相关截图发送给 AI 即可。

很好，输入以下指令即可进行对比，上面是 8B 的，下面是 70B 的：
ollama run llama3 "hello" --verbose
ollama run llama3:70b "hello" --verbose
最后看到生成的结果：

把生成报告简单给 AI 分析一下，8B 生成速度是 108.7 tokens/s，70B 生成速度是 1.46 tokens/s，这差了 100 倍的速度，简直就像龟兔赛跑一样。
而且初响应加载模型的速度，8B 也要快很多。
所以结论是：如果想要在本地跑开源的 Llama3 模型，做一些实验，没法用 70B，响应速度和生成速度都太慢了，根本受不了。
其实，还是因为单卡 4090D 的显存，达不到 70B 的要求。
03
那怎么判断 70B 需要多大的显存呢？
最近新学了一个简单的估算方法：
参数量估算法：需要 VRAM 显存大小（GB） = 参数量(billion) x 2
也就是 70B 大约需要 70*2 = 140G 的显存，那么单卡的 4090D 仅有 24G 显存，达不到流畅使用的要求。
但是对于 8B 参数的，需要 8*2 = 16G 显存，是足够的。

04
我是想象力AI，写过很多个有意思的自动化机器人，有小红书自动发图、抖音自动涨粉、和微信自动加好友拉群等等。
如果你感兴趣的话，千万记得要加我 aiaiai2098，一起交流。
往期文章：
盘点一下之前写过的AI、RPA机器人（内附使用教程）
当我把1340条笔记喂给kimi时，它比我还懂我自己。
必看！RPA 自动化开发效率增加100%
记录 | 学习实践 AI 一年，我赚了多少钱？