大模型微调：什么是PEFT技术？

2025-01-27 23:18#1 标记1

今天是二〇二四年的除夕，新的一年即将到来，在此百忙之际，依然抽空写点内容跟大家分享，希望对您有所帮助。龙年即将过去，蛇年即将到来，新的一年，工作可能会很忙，但我的公众号依然会努力持续更新，相信——积跬步以至千里。
PEFT，英文全称：Parameter Efficient Fine-Tuning，翻译过来叫参数高效微调，是一种针对大型预训练模型的高效微调技术，其核心思想是希望通过调整少量参数来提升模型在特定任务上的性能，同时显著降低计算资源和存储需求。下面我详细阐述下关于PEFT微调的详细解释：

PEFT的核心思想
PEFT的核心目标是在保持预训练模型大部分参数不变的情况下，仅通过微调少量参数来适应下游任务。这种方法避免了传统全参数微调（Full-FineTuning）的高计算成本和资源消耗，同时还保持了模型的性能和质量。
PEFT的主要方法
PEFT包含多种策略和技术，这里我总结了以下几种主要方法：
① LoRA（Low Rank Adaptation）：通过引入低秩矩阵近似预训练模型的权重，减少参数数量。例如，LoRA 可以将参数数量减少至原来的10倍甚至更多，同时显著降低GPU内存需求。
② Prompt Tuning：在输入文本中添加可训练的前缀嵌入，以引导模型输出更符合任务需求的结果。这种方法适用于问答、文本分类等自然语言处理任务。
③ Adapter Tuning：在模型层间插入小型神经网络（适配器），这些适配器仅在微调阶段训练，且参数量较少。适配器通过学习降维后的特征来优化模型性能。
④ BitFit：通过优化模型的输入偏置项来提升性能，这种方法对模型的权重几乎不进行修改。

PEFT的应用场景
目前，PEFT 被广泛应用于需要高效计算资源的场景，例如：边缘设备或移动设备：由于硬件资源有限，PEFT能够显著减少模型所需的计算资源和存储空间。大规模预训练模型：如GPT系列、BERT等，在特定任务上仅微调少量参数即可达到较高的性能。多任务学习：通过结合多种PEFT策略，可以在多个下游任务中实现高效的模型适配。
PEFT的优势
首先是实现高效：PEFT通过减少需要更新的参数数量，显著降低了计算时间和存储空间的需求。其次是灵活性高：可以根据任务需求选择不同的PEFT策略，从而灵活地调整模型性能。最后是适应性好：PEFT即使在数据量有限的情况下，也能通过少量参数调整并实现良好的性能提升。
PEFT的局限性
尽管 PEFT 具有显著优势，但也存在一些局限性：一方面是性能提升有限：在某些复杂任务中，PEFT可能无法达到与全参数微调相同的性能水平。另外适用性存在限制：某些PEFT方法可能只适合特定类型的任务或模型架构。
课代表小结
通过以上几个特性的了解，总体来看，PEFT特别适用于资源受限的场景，通过调整少量参数，就能够在保持模型性能的同时，显著降低计算成本和存储需求。随着技术的发展，PEFT有望在更多领域得到广泛应用。
往期推荐：
1. AI工具平台：GTPs、Coze和Dify
2. 如何理解“梯度消失”和“梯度爆炸”？
3. 深入理解：BERT模型
好了，本期内容就是这么多，希望能够帮助到您，感谢您能读到最后，如果觉得内容不错，请您点赞转发给予鼓励，咱们下期再见。