Andrej Karpathy最新神作：4小时视频手把手教你从零复现GPT-2

2024-06-10 02:10#1 标记1

OpenAI 联合创始人Andrej Karpathy大神上传了一段 4 小时视频讲座： “让我们复现 GPT-2（124M）

视频之所以这么长，是因为它非常全面：从一个空文件开始，大神手把手，事无巨细的的教你最终构建复现一个GPT-2（124M）模型：
首先构建了 GPT-2 网络
然后优化它以便快速训练
接着参考 GPT-2 和 GPT-3 论文来设置训练运行的优化和超参数
然后进行模型评估
最后启动模型训练等待结果
讲座地址：https://www.youtube.com/watch?v=l8pRSuU81PU‍
值得注意的是：
这个视频是基于“Zero To Hero”系列的，在讲解过程中会时不时地参考以前的视频。你也可以把这个视频看作是一步步构建 nanoGPT 仓库的过程。到视频的结尾，构建出来的 nanoGPT 仓库与实际的 nanoGPT 仓库大约有 90% 的相似度。也就是说，通过这个视频，你将能够构建一个几乎完整的 nanoGPT 模型
有人问大神这个适合初学者从头开始按照视频构建吗？这是大神回复，适合初学者，这个视频会带初学者走的很远

GitHub 相关的 GitHub 仓库包含完整的提交历史，因此你可以逐步查看视频中的所有代码更改。https://github.com/karpathy/build-nanogpt
从总体上看，视频分为以下几个部分：

第 1 部分：构建网络
首先探索了 GPT-2（124M）的 OpenAI 检查点‍
实现 GPT-2 的神经网络模块（nn.Module）‍
加载 Huggingface/GPT-2 的参数‍
实现前向传递来获得 logits 输出‍
初始化采样，处理前缀标记和标记化‍
编写采样循环，自动检测设备‍
开始训练，处理数据批次 (B,T) 并生成 logits (B,T,C)‍
计算交叉熵损失‍
编写优化循环，使模型过拟合单个批次‍
实现简化版的数据加载器‍
共享参数 wte 和 lm_head‍
进行模型初始化，使用标准差 0.02 和残差初始化
‍‍
第 2 部分：加快训练速度
使用 GPU 和混合精度训练，将训练时间缩短到 1000ms‍
利用张量核心，计算代码时间，使用 TF32 精度，将时间缩短到 333ms‍
使用 float16、梯度缩放器和 bfloat16，将时间缩短到 300ms‍
使用 torch.compile，减少 Python 开销和内核融合，将时间缩短到 130ms‍
使用闪存注意力，将时间缩短到 96ms‍
调整词汇表大小，从 50257 增加到 50304，将时间缩短到 93ms‍
第 3 部分：设置运行
设置超参数，使用 AdamW 优化器和梯度剪裁‍
使用预热加余弦衰减的学习率调度器‍
调整批次大小，使用权重衰减和 FusedAdamW，将时间缩短到 90ms‍
实现梯度累积‍
使用分布式数据并行（DDP）进行训练‍
讨论 GPT-2 和 GPT-3 使用的数据集以及 FineWeb（EDU）‍
设置验证数据拆分，计算验证损失，恢复采样
‍‍
第 4 部分：查看结果
使用 HellaSwag 进行模型评估，开始训练运行‍
第二天早上查看结果，我们成功复现了 GPT-2 和 GPT-3‍
致敬 llm.c，它使用原生 C/CUDA 实现了等效但更快的代码
‍‍
最后，总结整个过程，并介绍了 build-nanogpt 的 GitHub 仓库。通过这个视频，你可以全面了解如何从零开始复现 GPT-2（124M）模型，并学习到很多优化和实用技巧
⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

Andrej Karpathy上新👇👇