寒武纪1号：纽约大学谢赛宁与Yann LeCun 团队发布以视觉为中心多模态大模型

2024-06-27 11:02#1 标记1

Cambrian-1（寒武纪-1号）重磅登场：由纽约大学谢赛宁Yann LeCun团队带领CILVR（计算智能、学习、视觉、机器人）的众多成员完成

特点：
以视觉为中心的多模态 LLM 开源项目，开放数据集、开放模型、开放源代码。
从视觉编码器、连接器设计、指令调整数据、指令调整配方全面对比，以视觉为中心的新基准CV-Bench
这是一个完全开放的项目，发布了训练代码、模型权重、所有基准以及系统提示和评估管道等详细信息，模型之所以称为Cambrian，因为就像在寒武纪大爆发中生物发展出更好的视力一样，改进的视觉不仅仅是看到更远，而是更深刻地理解世界
论文arxiv：https://arxiv.org/abs/2406.16860 ‍‍‍
项目页面，提供大量资源：https://cambrian-mllm.github.io
从扩展LLM转向增强视觉
原因
世界并不需要另一个与GPT-4V竞争的大语言模型（MLLM）。Cambrian的独特之处在于它是一项以视觉为中心的探索，我们应该从扩展大语言模型转向增强视觉表示
当前MLLM系统在视觉方面存在一些意外的缺陷（从谢赛宁团队之前的研究MMVP, V*, VIRL中发现）。虽然我们可以通过例如增加数据等方法暂时修复问题，但根本问题在于我们的视觉表示尚不足以支持语言理解。短期内，像Astra和GPT-4o这样的项目令人印象深刻。然而，要开发一个能够像人类一样感知现实世界、可靠地管理复杂任务并作出相应反应的多模态助手，薄弱的感官基础可能会成为瓶颈。语言先验非常强大，但我们不应该像yann lecun 所说的那样，把它们当作拐杖来弥补视觉表示的不足

问题在于当前的视觉表示学习工作相当具有挑战性。虽然以CLIP为基础的模型在语言强监督下证明了其有效性，但它们也有自身的问题，如属性绑定。这些模型已经存在了一段时间，但我们尚未看到任何重大进展‍
另一方面，视觉自监督学习（Self-Supervised Learning，SSL）模型令人印象深刻，但传统的评估协议（如线性探测或迁移到目标检测）已经不再有效。这些方法已经过时，与当前的应用脱节，很多人认为视觉SSL已经遇到了瓶颈。我们应该继续前进，CLIP/SigLIP模型很好，但我们需要多样化我们的方法，并继续探索新的可能性，而不是停滞不前并声称胜利。（我相信Lucas Beyer 探索了新的方法如CapPa，也会同意这一观点）
这种情况让人想起2015-2016年，当时ImageNet的监督预训练被认为是不可战胜的，其他视觉表示至少落后10-15%。然而，这并没有阻止研究人员探索多样的方法和预文本任务。直到几年后，MoCo展示了超越监督预训练模型的潜力‍‍‍‍‍‍

这就是为什么开发Project Cambrian，以开辟更多以视觉为中心的探索之路。关键定位是多模态大语言模型（LLM）框架，如LLaVA，为视觉表示学习提供了优秀的评估协议：
它们可以无缝整合从自监督学习（SSL）、基于CLIP和其他目标学习到的视觉表示到一个统一的框架中
‍‍
与传统的计算机视觉（CV）流程如线性探测或目标检测微调相比，这些评估更加多样化和现实化（@inkynumbers在上周的CVPR会议上做了一个很棒的相关演讲）
‍‍
通过将LLM指令微调作为评估协议（并控制LLM大小），我们可以系统地分析视觉表示的行为
‍‍
Cambrian-1 的研究发现
谢赛宁团队仔细研究了五个关键领域：视觉表示的使用、连接器设计、指令微调数据、训练方法和基准测试。以下是发现的一些有趣结论‍‍‍‍‍‍

基准测试
目前，该领域相当混乱。虽然拥有更多的基准是有益的，因为它捕捉了多样的行为，但从各种任务中整合和解释结果几乎是不可能的，不同的研究选择了不同的基准集合‍

对常用的基准进行彻底分析，并基于视觉为中心的聚类分析创建了一个元基准。研究发现大多数基准并不能正确衡量以视觉为中心的能力，而那些能够衡量的基准通常样本很少。使用这样的基准，我们可能会过早得出视觉不重要、扩展大语言模型是唯一合理方法的结论，这是显然有缺陷的
如前所述，传统的计算机视觉协议并未提供我们所需的信号。然而，令人兴奋的是，现有的2D和3D视觉基准用于目标检测和分割（如COCO、ADE20K和Omni3D）可以有效地重新用于视觉问答（VQA）问题（关注空间关系、深度排序、计数等）。这种方法可以更准确地评估以视觉为中心的MLLM能力。我们称这种新基准为CV-Bench‍‍‍‍‍‍

视觉表示
CLIP模型排名第一并不令人意外，但这里有一些关于自监督学习（SSL）的有趣结论：
解冻视觉编码器通常非常有利，但对视觉为中心的基准，SSL模型的改进更为显著
‍‍
语言监督提供了强大的优势，但在有足够数据和适当的指令微调下，SSL方法可以迎头赶上
‍‍
总体上，SSL模型在视觉为中心的基准上表现良好，并且与CLIP模型搭配效果很好。这表明我们需要继续推动视觉表示学习，而不是止步于此。

关于架构，令人感兴趣的是ConvNeXt CLIP模型在我们的设置中也表现突出。高分辨率编码器显著提高了图表相关和视觉为中心的基准性能，而基于卷积神经网络的架构天生适合这些任务。未来，如果我们能用我们的MLLM管道评估timm集合，那将会带来一些非常令人兴奋的发展！

连接器
在Cambrian框架中，将视觉和语言集成的连接器至关重要，并被视为视觉表示的一部分。依赖简单的多层感知器（MLP）投影器可能无法充分发挥良好视觉表示的潜力‍

在Cambrian-1中提出了一种通用、灵活、以视觉为中心的连接器设计（空间视觉聚合器，Spatial Vision Aggregator，SVA），并证明空间归纳偏置和LLM Transformer块与视觉token之间的深度交互增强了视觉特征的聚合和凝结（这些特征可以来自多个编码器塔）
作为寒武纪项目探索的副产品，研究团队项目开发了一个性能卓越的MLLM模型，在使用相同的基础LLM的情况下，显著优于其他方法，如miniGemini和LLaVA-Next。值得注意的是，仅使用了四分之一的视觉token。此外，在研究团队非常重视的视觉为中心的基准上，性能差距尤为显著。

数据
研究团队从公共数据集中收集了Cambrian-7M，并研究了数据混合和平衡。这个数据集是最大的指令微调数据集，已经开源‍‍‍‍‍‍

项目背景与反思
谢赛宁，‍‍‍‍
这里有一些反思：当我从工业界转到学术界时，我不确定我们是否能完成这样一个需要全栈技能的大规模项目。学生们的奉献和勇气让我感到惊讶。我们的团队，包括博士、硕士和本科生，都做出了实质性的贡献，解决了数据、基础设施和建模方面的数百万个技术挑战，并在此过程中获得了大量经验‍
如果没有Google TPU Research Cloud计划的支持，这个项目是不可能实现的（特别感谢@JeffDean和@demishassabis对学术界的持续支持）‍
我认为Cambrian展示了如何补充行业的努力。我们无法扩展大语言模型，但这从来不是我们的目标。给我们一些资源，我们一定会分享有用的东西;)
我们称我们的模型为Cambrian，因为就像在寒武纪大爆发中生物发展出更好的视力一样，我们相信改进的视觉不仅仅是看到更远，而是更深刻地理解。
⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

AI看世界👇👇