JEST:谷歌全新AI训练技术,训练速度提升13倍,效率提高 10倍



Google DeepMind的研究团队最近发表了一项突破性研究,提出了一种名为JEST(Joint Example Selection)的新方法,旨在提高大规模多模态学习的效率。JEST通过创新的联合样本选择和学习性评分机制,显著加速了模型训练过程,同时提高了模型性能,谷歌声称其新方法可以将 AI 模型的训练速度和能效大幅提升一个数量级,以高达13倍更少的迭代和10倍更少的计算量超越了最新的模型
基础概念‍‍‍‍

JEST(Joint Example Selection)是一种创新的数据选择方法,旨在提高大规模多模态学习的效率。想象你正在准备一场涵盖多个学科的重要考试,面对海量的复习材料感到无从下手。JEST就像一个超级智能的学习助手,能够从这些材料中精准地挑选出最有价值的内容组合,帮助你事半功倍
核心原理:联合样本选择‍‍‍‍
传统的数据选择方法通常单独评估每个数据点的价值。而JEST的革新之处在于它考虑了数据批次的整体价值。这就像是在准备一桌丰盛的晚餐,不仅要选择每道菜的最佳食材,还要考虑整个菜单的搭配是否合理、口味是否均衡‍
在技术层面,JEST使用了一种称为"块状吉布斯采样"的方法来实现这一目标: 
a) 首先,它会随机选择一小批样本作为起点
b) 然后,基于这些样本的特性,有策略地选择下一批最合适的样本
 
c) 不断重复这个过程,直到组成一个最优的训练批次‍
这种方法能够捕捉到样本之间的相互关系,从而构建出比单独选择更有价值的数据集
评分机制:学习性评分‍‍‍‍
JEST引入了"学习性"这一创新概念来评估数据的价值。它通过比较两个模型对同一数据的反应来实现这一点:
学习模型:正在训练的模型,代表当前的学习状态
‍‍
参考模型:在高质量数据上预训练的模型,代表"专家"水平
‍‍
学习性分数 = 学习模型的损失 - 参考模型的损失
这个公式反映了一个简单而深刻的洞察:最有价值的数据应该是学习模型当前觉得困难(高损失),但参考模型认为简单(低损失)的数据。这就像在学习过程中,最该关注的是你目前不懂,但实际上并不太难的知识点
效率优化
为了在海量数据中快速找到最有价值的批次,JEST采用了几种优化技术:
a) 多分辨率训练:
将输入数据分成高分辨率和低分辨率两部分‍
低分辨率部分用于快速初筛,高分辨率部分用于精确学习‍
这就像医生诊断时,先用快速检查确定大致情况,再对关键部位进行精细检查
‍‍
b) 在线模型近似:
使用简化版的模型来快速评估大量数据。
这种方法牺牲了一些精度,但大大提高了处理速度。
类比来说,这就像使用简化的笔试来初步筛选求职者,而不是对每个人都进行全面的面试
据引导与扩展
JEST的一个重要特性是能够利用小型高质量数据集来指导大规模学习。这被称为"数据质量引导":
首先在一个小型但高度精选的数据集上训练参考模型。
然后使用这个参考模型来指导在更大、可能质量参差不齐的数据集上的学习。
这就像用一小套名师编写的精华题集来引导海量网络习题的筛选和学习。实验表明,这种方法能够显著提高学习效率和模型性能
实验结果与应用前景

JEST在多项实验中展现了卓越的性能:
加速学习:在某些情况下,JEST只需要原来1/13的训练迭代就能达到相同的性能。
性能提升:在相同的训练量下,JEST比基线模型平均提高6%的性能。
计算效率:Flexi-JEST变体在仅增加10%计算量的情况下,实现了近10倍的计算效率提升。
扩展性:在公开数据集上,JEST++使用更少的样本就超越了之前的最佳结果。
简化数据准备:JEST++几乎消除了对数据集进行预先筛选的需求。
这些结果表明,JEST在以下方面可能具有广阔的应用前景:
大规模模型预训练:显著降低成本和时间。
个性化学习:通过调整参考模型,为不同任务定制最优数据分布。
持续学习:动态适应新数据,保持模型性能的不断更新。
资源受限场景:在有限的计算资源下实现高效学习
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

AI训练技术👇👇
到顶部