AI大模型语言理解学习有新解?研究称"遗忘"或是关键



伦敦大学学院人工智能研究员yihong chen(本硕清华,PhD UCL) 最近领导了一项研究-《通过主动遗忘预训练提高语言可塑性》(已被人工智能顶会NeurIPS接收)展示了用主动遗忘预训练语言模型如何帮助AI快速学习新语言。通过遗忘预训练获得的模型可塑性会让人大吃一惊。yihong chen 和她的团队说,他们的方法取得了成功,这表明遗忘可能有助于人工智能在不同语言之间进行泛化

AI模型现状‍‍‍
AI语言模型目前主要依赖人工神经网络驱动。神经网络由数学函数"神经元"构成,通过多层神经元传递并处理信息流。训练的本质是调整神经元连接,使模型适应训练数据,比如通过中英双语训练,模型可建立起英语单词与对应中文词语之间的关联
基于这种现状,现在AI模型缺点很明显:
巨大的算力耗费

如果训练不佳,调整模型非常困难

为了解决以上问题,yihong chen团队 提出“定期遗忘算法”,首次将遗忘机制引入到语言模型预训练中,为提高预训练语言模型的可塑性和适应性开辟了新路径,主要创新点:
提出了一种新颖的"主动遗忘"机制,在单次模型训练过程中,定期重置嵌入层(存储单词语义信息的网络层),而不是完全训练后再重置。这让整个模型习惯了"遗忘和重新学习"的过程

‍‍
与传统静态预训练模型不同,采用主动遗忘机制预训练得到的模型在适应新语言时,表现出了更好的小数据集适应能力、更快的收敛速度,尤其是对于与预训练语言(英语)语系较远的语种
‍‍

‍‍
从理论和实验两方面探讨了遗忘机制的积极作用,为人工智能系统赋予"遗忘"这一看似消极的能力提供了新的视角和证据

‍‍
研究建议,采用遗忘预训练可能使语言模型编码了更高层次、更抽象的语言概念,从而获得跨语言的迁移学习能力。这为探索语言理解的本质机理提供了一种新的解释思路,即更多地依赖概念层面的把握,而不只是记忆大量词汇语义信息

‍‍
遗忘预训练策略为模型赋予了一种类似于元学习的能力,即面对新环境(新语种)时可以快速适应,这与人类学习遗忘的认知过程具有某种相似性


实验结果显示,采用"定期遗忘"训练的模型虽然初始精度稍逊传统模型,但在学习新语言时的表现要优秀得多,而且耗费的数据和算力资源也更少。这表明这种"遗忘"机制增强了模型对语言本质的理解,提升了灵活学习的能力

结语
目前主导市场的大型语言模型,仍是基于传统的训练范式,这项工作提出了一种全新的预训练范式,为提高大规模语言模型的可塑性和通用性开辟了新路径,并对语言理解的认知机制提出了新的解释视角,期待定期遗忘算法后续实际应用结果
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

遗忘才是解药?👇👇
到顶部