01
实测 | 用 4090D 跑 Llama3 跟坐火箭一样快,在上篇文章中,我用土法测速计算了 Llama3 8B 的生成速度 tks/s,得到是 67.7 tokens/s。
当然,因为是土法测速,纯靠手工,误差较大,十分不妥。
正好有位朋友提供了一个方法,可以靠模型自己计算输出速度有多少。
感谢这位朋友,让我摆脱了土法测速。
本地也装好了 70B 和 8B 版本,今天就简单对比下生成速度。
公平起见,我们采用一样的 prompt,避免场外因素干扰。
02
先在命令行中,输入:
ollama run --help
可以让 chatGPT 帮忙查一下具体的指令,只需要把相关截图发送给 AI 即可。
很好,输入以下指令即可进行对比,上面是 8B 的,下面是 70B 的:
ollama run llama3 "hello" --verbose
ollama run llama3:70b "hello" --verbose
最后看到生成的结果:
把生成报告简单给 AI 分析一下,8B 生成速度是 108.7 tokens/s,70B 生成速度是 1.46 tokens/s,这差了 100 倍的速度,简直就像龟兔赛跑一样。
而且初响应加载模型的速度,8B 也要快很多。
所以结论是:如果想要在本地跑开源的 Llama3 模型,做一些实验,没法用 70B,响应速度和生成速度都太慢了,根本受不了。
其实,还是因为单卡 4090D 的显存,达不到 70B 的要求。
03
那怎么判断 70B 需要多大的显存呢?
最近新学了一个简单的估算方法:
参数量估算法:需要 VRAM 显存大小(GB) = 参数量(billion) x 2
也就是 70B 大约需要 70*2 = 140G 的显存,那么单卡的 4090D 仅有 24G 显存,达不到流畅使用的要求。
但是对于 8B 参数的,需要 8*2 = 16G 显存,是足够的。
04
我是想象力AI,写过很多个有意思的自动化机器人,有小红书自动发图、抖音自动涨粉、和微信自动加好友拉群等等。
如果你感兴趣的话,千万记得要加我 aiaiai2098,一起交流。
往期文章:
盘点一下之前写过的AI、RPA机器人(内附使用教程)
当我把1340条笔记喂给kimi时,它比我还懂我自己。
必看!RPA 自动化开发效率增加100%
记录 | 学习实践 AI 一年,我赚了多少钱?