寒武纪1号:纽约大学谢赛宁与Yann LeCun 团队发布以视觉为中心多模态大模型



Cambrian-1(寒武纪-1号)重磅登场:由纽约大学谢赛宁Yann LeCun团队 带领CILVR(计算智能、学习、视觉、机器人)的众多成员完成

特点:
以视觉为中心的多模态 LLM 开源项目, 开放数据集、开放模型、开放源代码。 
从视觉编码器、连接器设计、指令调整数据、指令调整配方全面对比, 以视觉为中心的新基准CV-Bench
这是一个完全开放的项目,发布了训练代码、模型权重、所有基准以及系统提示和评估管道等详细信息,模型之所以称为Cambrian,因为就像在寒武纪大爆发中生物发展出更好的视力一样,改进的视觉不仅仅是看到更远,而是更深刻地理解世界
论文arxiv:https://arxiv.org/abs/2406.16860 ‍‍‍
项目页面,提供大量资源:https://cambrian-mllm.github.io
从扩展LLM转向增强视觉
原因
世界并不需要另一个与GPT-4V竞争的大语言模型(MLLM)。Cambrian的独特之处在于它是一项以视觉为中心的探索,我们应该从扩展大语言模型转向增强视觉表示
当前MLLM系统在视觉方面存在一些意外的缺陷(从谢赛宁团队之前的研究MMVP, V*, VIRL中发现)。虽然我们可以通过例如增加数据等方法暂时修复问题,但根本问题在于我们的视觉表示尚不足以支持语言理解。 短期内,像Astra和GPT-4o这样的项目令人印象深刻。然而,要开发一个能够像人类一样感知现实世界、可靠地管理复杂任务并作出相应反应的多模态助手,薄弱的感官基础可能会成为瓶颈。语言先验非常强大,但我们不应该像yann lecun 所说的那样,把它们当作拐杖来弥补视觉表示的不足

问题在于当前的视觉表示学习工作相当具有挑战性。虽然以CLIP为基础的模型在语言强监督下证明了其有效性,但它们也有自身的问题,如属性绑定。这些模型已经存在了一段时间,但我们尚未看到任何重大进展‍
另一方面,视觉自监督学习(Self-Supervised Learning,SSL)模型令人印象深刻,但传统的评估协议(如线性探测或迁移到目标检测)已经不再有效。这些方法已经过时,与当前的应用脱节,很多人认为视觉SSL已经遇到了瓶颈。我们应该继续前进,CLIP/SigLIP模型很好,但我们需要多样化我们的方法,并继续探索新的可能性,而不是停滞不前并声称胜利。(我相信Lucas Beyer 探索了新的方法如CapPa,也会同意这一观点)
这种情况让人想起2015-2016年,当时ImageNet的监督预训练被认为是不可战胜的,其他视觉表示至少落后10-15%。然而,这并没有阻止研究人员探索多样的方法和预文本任务。直到几年后,MoCo展示了超越监督预训练模型的潜力‍‍‍‍‍‍

这就是为什么开发Project Cambrian,以开辟更多以视觉为中心的探索之路。关键定位是多模态大语言模型(LLM)框架,如LLaVA,为视觉表示学习提供了优秀的评估协议:
它们可以无缝整合从自监督学习(SSL)、基于CLIP和其他目标学习到的视觉表示到一个统一的框架中
‍‍
与传统的计算机视觉(CV)流程如线性探测或目标检测微调相比,这些评估更加多样化和现实化(@inkynumbers在上周的CVPR会议上做了一个很棒的相关演讲)
‍‍
通过将LLM指令微调作为评估协议(并控制LLM大小),我们可以系统地分析视觉表示的行为
‍‍
 Cambrian-1 的研究发现
谢赛宁团队仔细研究了五个关键领域:视觉表示的使用、连接器设计、指令微调数据、训练方法和基准测试。以下是发现的一些有趣结论‍‍‍‍‍‍

基准测试 
目前,该领域相当混乱。虽然拥有更多的基准是有益的,因为它捕捉了多样的行为,但从各种任务中整合和解释结果几乎是不可能的,不同的研究选择了不同的基准集合‍

对常用的基准进行彻底分析,并基于视觉为中心的聚类分析创建了一个元基准。研究发现大多数基准并不能正确衡量以视觉为中心的能力,而那些能够衡量的基准通常样本很少。使用这样的基准,我们可能会过早得出视觉不重要、扩展大语言模型是唯一合理方法的结论,这是显然有缺陷的
如前所述,传统的计算机视觉协议并未提供我们所需的信号。然而,令人兴奋的是,现有的2D和3D视觉基准用于目标检测和分割(如COCO、ADE20K和Omni3D)可以有效地重新用于视觉问答(VQA)问题(关注空间关系、深度排序、计数等)。这种方法可以更准确地评估以视觉为中心的MLLM能力。我们称这种新基准为CV-Bench‍‍‍‍‍‍

视觉表示
CLIP模型排名第一并不令人意外,但这里有一些关于自监督学习(SSL)的有趣结论:
解冻视觉编码器通常非常有利,但对视觉为中心的基准,SSL模型的改进更为显著
‍‍
语言监督提供了强大的优势,但在有足够数据和适当的指令微调下,SSL方法可以迎头赶上
‍‍
总体上,SSL模型在视觉为中心的基准上表现良好,并且与CLIP模型搭配效果很好。这表明我们需要继续推动视觉表示学习,而不是止步于此。

关于架构,令人感兴趣的是ConvNeXt CLIP模型在我们的设置中也表现突出。高分辨率编码器显著提高了图表相关和视觉为中心的基准性能,而基于卷积神经网络的架构天生适合这些任务。未来,如果我们能用我们的MLLM管道评估timm集合,那将会带来一些非常令人兴奋的发展!

连接器
在Cambrian框架中,将视觉和语言集成的连接器至关重要,并被视为视觉表示的一部分。依赖简单的多层感知器(MLP)投影器可能无法充分发挥良好视觉表示的潜力‍

在Cambrian-1中提出了一种通用、灵活、以视觉为中心的连接器设计(空间视觉聚合器,Spatial Vision Aggregator,SVA),并证明空间归纳偏置和LLM Transformer块与视觉token之间的深度交互增强了视觉特征的聚合和凝结(这些特征可以来自多个编码器塔)
作为寒武纪项目探索的副产品,研究团队项目开发了一个性能卓越的MLLM模型,在使用相同的基础LLM的情况下,显著优于其他方法,如miniGemini和LLaVA-Next。值得注意的是,仅使用了四分之一的视觉token。此外,在研究团队非常重视的视觉为中心的基准上,性能差距尤为显著。

数据
研究团队从公共数据集中收集了Cambrian-7M,并研究了数据混合和平衡。这个数据集是最大的指令微调数据集,已经开源‍‍‍‍‍‍

项目背景与反思
谢赛宁,‍‍‍‍
这里有一些反思:当我从工业界转到学术界时,我不确定我们是否能完成这样一个需要全栈技能的大规模项目。学生们的奉献和勇气让我感到惊讶。我们的团队,包括博士、硕士和本科生,都做出了实质性的贡献,解决了数据、基础设施和建模方面的数百万个技术挑战,并在此过程中获得了大量经验‍
如果没有Google TPU Research Cloud计划的支持,这个项目是不可能实现的(特别感谢@JeffDean和@demishassabis对学术界的持续支持)‍
我认为Cambrian展示了如何补充行业的努力。我们无法扩展大语言模型,但这从来不是我们的目标。给我们一些资源,我们一定会分享有用的东西;)
我们称我们的模型为Cambrian,因为就像在寒武纪大爆发中生物发展出更好的视力一样,我们相信改进的视觉不仅仅是看到更远,而是更深刻地理解。
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

AI看世界👇👇
到顶部