英伟达推出合成数据神器Nemotron-4 340B:用于大语言模型训练



NVIDIA 今日宣布推出 Nemotron-4 340B,这是一系列开放模型,开发人员可以用它来生成合成数据,以便在医疗、金融、制造、零售等各个行业的商业应用中训练大型语言模型(LLM)
高质量的训练数据对定制 LLM 的性能、准确性和响应质量至关重要,但强大的数据集往往成本高昂且难以获取。
通过一种独特且宽松的开放模型许可,Nemotron-4 340B 为开发人员提供了一种免费的、可扩展的方式来生成合成数据,从而帮助构建强大的 LLM
Nemotron-4 340B 系列包括基础模型、指令模型和奖励模型,这些模型构成了一个管道,用于生成和优化训练 LLM 所需的合成数据。这些模型经过优化,可以与NVIDIA NeMo(一个端到端模型训练的开源框架,包括数据管理、定制和评估)配合使用。它们还经过优化,可以与开源的NVIDIA TensorRT-LLM库一起进行推理
Nemotron-4 340B 现在可以从Hugging Face下载。开发人员很快就可以在ai.nvidia.com上访问这些模型,它们将作为NVIDIA NIM微服务打包,具有标准的应用编程接口,可部署在任何地方。使用 Nemotron 生成合成数据
在访问大型、多样的标记数据集受限的情况下,LLM 可以帮助开发人员生成合成训练数据。
Nemotron-4 340B Instruct模型可以创建多样化的合成数据,模拟真实世界数据的特征,从而提高数据质量,增强定制 LLM 在各个领域的性能和稳健性。
随后,为了提高 AI 生成数据的质量,开发人员可以使用Nemotron-4 340B Reward模型筛选高质量的响应。Nemotron-4 340B Reward 根据五个属性对响应进行评分:有用性、正确性、一致性、复杂性和冗长性。它目前在Hugging Face RewardBench排行榜上排名第一,该排行榜由AI2创建,用于评估奖励模型的能力、安全性和缺陷。
在这个合成数据生成管道中,(1)首先使用 Nemotron-4 340B Instruct 模型生成基于文本的合成输出。然后,评估模型(2)Nemotron-4 340B Reward 评估生成的文本——提供反馈,指导迭代改进,确保合成数据准确、相关并符合特定要求。
研究人员还可以结合他们的专有数据和包含的HelpSteer2 数据集来定制Nemotron-4 340B Base模型,创建自己的指令或奖励模型。使用 NeMo 进行微调,使用 TensorRT-LLM 进行推理优化
利用开源的 NVIDIA NeMo 和 NVIDIA TensorRT-LLM,开发人员可以优化指令和奖励模型的效率,以生成合成数据并对响应进行评分。
所有 Nemotron-4 340B 模型都经过 TensorRT-LLM 优化,利用 Tensor 并行性,这是一种模型并行性,其中单个权重矩阵分布在多个 GPU 和服务器上,实现大规模高效推理。
在 9 万亿个 Token 上训练的 Nemotron-4 340B Base 可以使用 NeMo 框架定制,以适应特定的用例或领域。这个微调过程受益于广泛的预训练数据,为特定的下游任务产生更准确的输出。
通过 NeMo 框架可以使用各种定制方法,包括监督微调和参数高效微调方法,如低秩适配(LoRA)。
为了提高模型质量,开发人员可以使用NeMo Aligner和 Nemotron-4 340B Reward 注释的数据集对其模型进行对齐。对齐是训练 LLM 的关键步骤,通过人类反馈强化学习(RLHF)等算法对模型行为进行微调,以确保其输出安全、准确、上下文适当并符合预期目标。
希望在生产环境中获得企业级支持和安全性的企业也可以通过云原生NVIDIA AI Enterprise软件平台访问 NeMo 和 TensorRT-LLM,该平台为生成式 AI 基础模型提供加速和高效的运行时。
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

合成数据👇👇
到顶部