【重磅】Answer.AI推出王炸项目:在家即可训练700亿参数大模型「只需要游戏显卡」



本文为1600字,建议阅读4分钟
今天Answer.AI团队携手华盛顿大学的Tim Dettmers以及Hugging Face实验室的Titus von Koeller和Sourab Mangrulkar共同发布了一项革命性的开源项目。这一系统首次让普通用户能够利用自家桌面计算机上的双路游戏级GPU(如RTX 3090或4090)高效地训练出拥有700亿参数的大型语言模型。该系统融合了FSDP(Fully Sharded Data Parallelism)和QLoRA两种技术,将原本仅能在昂贵数据中心级别硬件上运行的大规模模型训练工作带到大众触手可及的领域。
技术实现细节
在实现消费级硬件上训练大规模语言模型的过程中,Answer.AI团队引入并巧妙结合了QLoRA和FSDP两项关键技术,通过结合QLoRA减少模型存储需求和FSDP提高多GPU并行计算效能,Answer.AI团队成功地在消费级硬件上实现了700亿参数模型的训练
QLoRA(Quantization + Low-Rank Adaptation of Large Language Models)是一种创新策略,首先采用量化技术将大型神经网络的权重从16位或32位压缩到4位甚至更少,大大减少了模型存储需求。尽管4位数只能表示16种状态,但Dettmers及其合作者证实,在当前流行的大型语言模型中,这样的量化程度已足够精确。通过bitsandbytes库,用户可以轻松创建4位“量化”模型,Hugging Face也积极参与了对该库的维护和文档编写工作‍
然而,量化模型面临的一个主要问题是不能用常规方式进行进一步训练,因为量化后的有限数值范围会导致梯度消失,使得模型参数无法更新。为了解决这个问题,QLoRA引入了LoRA技术。LoRA允许在保持大型语言模型主体不变的基础上添加小巧的适配器矩阵,这些适配器通常小于整个模型的1%,并且是可训练的。例如,Stable Diffusion等模型就采用了类似的适配器结构以降低分享和下载时的模型大小和速度要求‍
QLoRA的独特之处在于,它将量化基模型(训练过程中不改变)与非量化LoRA适配器相结合,这样便可以在单个GPU上训练那些理论上无法容纳的大型模型。Dettmers团队运用QLoRA技术在一块48GB显卡上成功训练了一个未经量化前大小达到130GB的650亿参数模型‍
然而,即便是48GB的高端显卡,内存空间仍非常紧张,尤其是在需要处理长序列训练和批量训练时,存储激活值、梯度和其他优化状态所需的空间极大地挤压了模型本身的内存占用。这意味着要在更大的模型上取得进展,例如训练700亿参数的模型,必须寻找更为有效的内存管理方案‍
这时,FSDP(Fully Sharded Data Parallel)技术应运而生。FSDP由Meta的PyTorch团队开发,它的核心思想是将大型模型的参数分散到多个GPU上,每个GPU仅负责存储和计算模型的部分参数。不同于传统的分布式数据并行(DDP),后者要求每个GPU上都存放完整模型副本,当模型太大以至于无法全部放入单个GPU时,DDP就显得力不从心‍
FSDP通过智能地同步和调度不同GPU之间的数据传输与计算过程,确保在计算一层神经网络的同时,下一层次所需的参数正在被高效地复制至当前GPU。虽然这种看似低效的临时数据拷贝删除机制乍一看可能带来性能损耗,但实际上通过对数据传输与计算任务的精巧安排,FSDP能实现在并行计算效率上不逊于DDP,即便是在处理超过单个GPU内存限制的大型模型时也能保证高速训练‍
让人人可以训练超大规模大模型
长期以来,深度学习模型训练所需的硬件设备存在明显的等级差异。高端的数据中心级显卡如H100s和A100s,每台售价高达数十万美元,而成本相对低廉的游戏级GPU,比如一对4090显卡组合,价格则在1万美元以下,甚至通过二手部件组装的价格更低至同等预装系统的二分之一。尽管如此,游戏GPU的性能却能与价格高出十倍以上的数据中心级GPU相媲美。但因内存容量限制,以往我们无法利用这些性价比极高的游戏GPU来训练大规模的语言模型——顶级数据中心卡配备80GB内存,而游戏卡最大仅为24GB内存。因此,只有财力雄厚的机构才能投入资源训练出表现最佳的大规模模型。
然而,Answer.AI团队意识到这一现状并非固有难题,关键在于如何有效利用现有快速硬件,并解决其内存约束问题。考虑到业界大公司由于已经拥有昂贵的硬件设施,缺乏探索低成本解决方案的动力,Answer.AI决定挑战这一空白地带。他们的目标明确且富有远见:利用仅具备24GB显存的游戏GPU来训练一个拥有700亿参数的顶尖开源模型。
此次发布的开源系统正是这一大胆设想的具体实现,它不仅有助于开源社区推出更高质量的模型,也为小型研究团队和个人开发者开启了全新的可能性。Teknium公司,作为广受欢迎的OpenHermes模型和数据集背后的创造者,下载量超过50万次,对此评价道:“这项能力让我们能够在本地环境中对大型模型进行更高层次的研究,数百亿参数级别的巨型模型现在也能被小型实验室所掌握。”
Answer.AI团队之所以选择这个项目作为首秀,是因为他们坚信这是一条通往普适性AI的关键路径。仅仅是使用他人的模型还远远不够,团队希望每个人都能创建自己的个性化模型,从而真正掌控自己的AI系统。通过该项目,团队成功打破了高昂硬件壁垒,使得更多人有机会参与到先进AI技术的研发中去
这一技术突破标志着一个新时代的到来,它赋予了个人用户以前所未有的力量,即在家中就能训练出与顶级研究机构水平相当的超大规模语言模型。这不仅是AI技术的一次飞跃,也是科技普惠理念的重要实践,对于加速全球范围内AI应用创新、知识普及和技术迭代具有里程碑式的意义。
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

真正利好👇👇
到顶部