【太疯狂了】用 1000 行纯 C 代码实现 GPT-2 训练：Andrej Karpathy重塑LLM训练格局

2024-04-09 22:02#1 标记1

在深度学习领域，使用诸如PyTorch等现代框架进行大规模语言模型（LLM）的训练已成为常态。然而，在个人计算机上训练大型语言模型通常需要大量的依赖库和计算资源,这给开发者带来了不小的挑战

OpenAI 联合创始人，前特斯拉CV总监，人工智能大神Andrej Karpathy 提出了一种全新的方法llm.c,使用纯 C 实现了 GPT-2 模型的训练过程,只需要约 1000 行代码,同时也精确地复现了 PyTorch 参考实现的结果。本文将详细解读llm.c项目的特性、设计思路以及未来规划
项目概述

llm.c项目以大约1,000行干净、精炼的C代码实现了GPT-2模型在CPU上以单精度浮点数（fp32）进行训练。它编译迅速，运行高效，且其结果与PyTorch官方参考实现精确匹配。选择GPT-2作为起始点，是因为它是LLM领域的开山之作，首次以现代形式集成了LLM堆栈，并且其模型权重公开可得。项目源码位于GitHub仓库https://github.com/karpathy/llm.c，其中核心训练代码位于train_gpt2.c文件中
内存管理与层实现
内存分配与优化：llm.c在初始化阶段一次性为所有所需内存分配一个大的1D内存块（一维内存），避免了训练过程中频繁的内存创建与销毁操作，从而维持恒定的内存占用。数据批次则以流式方式动态加载并逐个通过模型‍
手动实现前向与反向传播：项目的精髓在于手动编写每个独立层的前向与反向传播函数，并将它们有序地串联起来。例如，LayerNorm层的前向与反向计算被精心实现。除LayerNorm外，项目还涵盖了编码器、矩阵乘法、自注意力机制、GELU激活函数、残差连接、Softmax函数以及交叉熵损失函数等关键组件
层间连接与指针运算
将所有层拼接成完整的模型并非易事，需要确保所有的指针与张量偏移量精准无误。具体做法如下：
统一内存分配：首先分配一个单一的1D内存数组，随后将模型的所有权重与激活值指向这片内存区域
‍
精细的指针算术：对内存中的每个位置进行极为细致的指针运算，确保数据访问的正确性
扩展与优化
CUDA移植：Karpathy正在进行将现有CPU实现逐步迁移到CUDA平台的工作，旨在利用GPU加速计算，提升效率，有望达到与PyTorch相当的性能，同时摒弃繁重的依赖库。目前，部分层已成功完成CUDA化，整个过程如同一场有趣的CUDA编程实践
精度降低与新层支持：后续计划包括将精度由fp32降至fp16及更低，以减少内存需求与提高计算速度。此外，项目还将添加如RoPE（相对位置编码）等更多层，以支持更先进的LLM架构，如llama 2、mistral、gemma等
教程与视频：当项目进入更为稳定的状态时，Karpathy计划制作一系列详细视频，从零开始逐步展示如何构建该项目。此外，他还提供了一份简短但实用的教程，讲解如何将PyTorch层转化为C代码，并给出了若干有益提示
以LayerNorm为例剖析转换过程
LayerNorm原理与迁移：LayerNorm源于Ba等人于2016年提出的论文，后被Vaswani等人在《Attention is All You Need》一文中引入Transformer架构。GPT-2继承了Transformer架构，但调整了LayerNorm的位置，将其置于每个模块的前端，即所谓的预归一化版本，显著增强了训练稳定性。llm.c项目遵循这一设计‍
PyTorch至C的转换：在PyTorch中，张量是对底层1D内存存储的多维视图。以一个2x3x4张量为例，其实际内存布局是一维数组，大小为2×3×4=24。访问张量元素时，如a[1,2,3]，PyTorch会计算出在1D数组中的偏移量（此处为23），返回该位置的值。在C语言实现中，需明确理解这种内存布局，并运用类似指针偏移规则来访问数据‍
C语言中的LayerNorm前向传播：在C代码中，LayerNorm的前向传播函数清晰展示了如何根据输入张量的形状计算出每个元素在1D内存中的位置，进行均值与方差计算，以及标准化、缩放与偏移等操作。同时，为了反向传播的需要，函数还会缓存均值与标准化因子（rstd）
C语言中的LayerNorm反向传播：反向传播函数利用前向传播时保存的中间变量（如均值与rstd），结合输入梯度，计算模型参数（权重与偏置）及输入数据的梯度。值得注意的是，为平衡内存与计算资源，可以选择性地将某些中间变量加入缓存，以避免在反向传播中重新计算，这就是所谓的“检查点”技术。不同的深度学习框架实现可能会有不同的检查点设置
结语
llm.c项目以简洁的C语言实现了GPT-2模型的端到端训练，提供了从PyTorch等现代框架中解脱出来、直接操作底层计算资源的可能性。项目不仅注重代码的精简与高效，还致力于向CUDA移植以提升计算性能，并规划了对更多先进LLM架构的支持。随着教程与视频资料的完善，开发者将能够深入理解并轻松构建基于C语言的LLM训练环境
我猜这个项目可能与Andrej Karpathy将来的工作计划有关，前段时间Andrej Karpathy刚从OpenAI离职，1000行纯c代码实现GPT2的训练这个太疯狂了，如果项目继续推进这将彻底颠覆大语言模型的训练效率和开发效率‍‍‍‍‍‍‍‍‍
⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

膜拜大神👇👇