Andrej Karpathy：GPT-4o Mini 挑战行业极限的背后

2024-07-22 06:32#1 标记1

AI模型的新标杆：GPT-4o Mini挑战行业极限，直接上图，三连看

GPT-4o Mini挑战行业极限背后意味着什么呢？且听AI大神解读
Andrej Karpathy ：大语言模型的尺寸竞争正在倒退...
我打赌我们会看到非常非常小的模型“思考”得非常好且可靠。很可能存在一个GPT-2参数的设置，大多数人会认为GPT-2是“聪明的”。当前模型如此大的原因是因为我们在训练期间仍然非常浪费——我们要求它们记住互联网，令人惊讶的是，它们确实做到了，并且可以例如背诵常见数字的SHA哈希值，或回忆非常深奥的事实。（实际上，大语言模型在记忆方面非常出色，质量上远胜于人类，有时只需要一次更新就能记住大量细节，并且长时间记住）。但想象一下，如果你要在闭卷考试中背诵互联网的任意段落，给出前几个词。这是当今模型的标准（预）训练目标。更难的是，因为思考的演示在训练数据中是与知识“纠缠”的‍
因此，模型必须先变大，然后才能变小，因为我们需要它们（自动化）的帮助将训练数据重构和模塑成理想的、合成的格式‍
这是一个改进的阶梯——一个模型帮助生成下一个模型的训练数据，直到我们获得“完美的训练集”。当你在这个训练集上训练GPT-2时，它将是一个非常强大且聪明的模型，以今天的标准来看。也许MMLU会低一些，因为它不会完美记住所有的化学知识。也许它需要偶尔查找一些东西以确保准确‍
Andrej Karpathy ：这与特斯拉的自动驾驶网络没有什么不同。什么是“离线跟踪器”（在AI日介绍）？它是一个合成数据生成过程，使用之前的、更弱的（或例如单帧，或仅边界框）模型，在离线3D+时间重建过程中运行它们，并生成更清晰的训练数据，直接用于3D多摄像头视频网络。大语言模型中也必须如此
Elon Musk ：是的，特斯拉的现实世界AI也是一样的
⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

👇👇