小炒汤圆 投稿量子位 | 公众号 QbitAI
混合专家(MoE)架构已支持多模态大模型,开发者终于不用卷参数量了!
北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA,登上了GitHub热榜。
它仅有3B激活参数,表现却已和7B稠密模型持平,甚至部分指标比13B的模型还要好。
从一张图表中,MoE-LLaVA可以精准分析之中的细节,连线条的颜色都能把控到位。
推理能力也十分优秀,能够根据照片场景针对性地给出旅行建议。
在物体幻觉基准测试中,MoE-LLaVA取得了近87分的成绩,超过了一众13B模型,占据了成为成绩-参数量图线左上角的位置。
性能方面,在8块V100上,仅需两天时间就能完成MoE-LLaVA的训练。
与简单粗暴地提高参数量相比,MoE架构大幅降低了多模态模型的训练和推理成本。
目前,研究团队已经开放了所有的数据、代码和模型,那么它的表现到底如何呢?
成绩不输13B稠密模型
在图像问答数据集和Benchmark工具上,MoE-LLaVA都取得了优异的测试成绩。
与前SOTA方法LLaVA-1.5相比,MoE-LLaVA-2.7B×4展现了强大的图片理解能力,在5个数据集上的表现非常接近LLaVA-1.5。
其中,在SQA数据集上,MoE-LLaVA的成绩比LLaVA-1.5-7B还要领先1.9个百分点。
而相比于小规模多模态模型TinyGPT-V,MoE-LLaVA-1.8B×4在相当的激活参数下,在GQA和VisWiz数据集中分别超出27.5和10个百分点,说明了MoE-LLaVA拥有强大的视觉理解能力。
为了更全面的验证MoE-LLaVA的多模态理解能力,研究团队在4个Benchmark工具包上评估了它的性能。
Benchmark工具包中的答案通常是开放性的,而且没有固定模板,目的是验证模型能否能完成自然语言问答任务。
结果,MoE-LLaVA-1.8B×4超过了图片分辨率更高的Qwen-VL,说明MoE-LLaVA这一稀疏模型可以用更少的激活参数达到和稠密模型相当甚至更好的性能。
此外,研究团队还采用POPE工具评估了验证MoE-LLaVA的幻觉,结果它表现最好的性能,意味着它能准确辨别图像内容。
具体来说,MoE-LLaVA-1.8B×4以2.2B的激活参数量,超过了13B的LLaVA-1.5。
另外,MoE-LLaVA的yes ratio占比处于较均衡状态,说明它能够根据问题做出正确的反馈。
那么,MoE-LLaVA具体是如何实现的呢?
向多模态模型中引入MoE架构
MoE-LLaVA采用三阶段的训练策略,整体工作流程如下图所示。
前两个阶段中,图像和文本信息分别被视觉编码器(VE)和文本嵌入层(WEL)转化为token。
具体来看,阶段1的目标是把视觉token转换成LLM能理解的形式。
为了实现这一点,研究团队采用一个多层感知机(MLP)将视觉token投影到LLM的输入域,使其作为LLM能理解的伪文本token。
在这个阶段,LLM被训练学会描述图片,为理解更高层次的图片语义的打下基础。
阶段2是用多模态的指令数据来对LLM进行微调,使之成为有多模态理解能力的模型。
这个阶段的指令更加复杂,包含图片逻辑推理、文字识别等高级任务,对模型的多模态理解能力有了更高的要求。
通常来说,如果是稠密多模态模型,训练过程到此就完成了,但研究团队发现同时将LLM多模态化和稀疏化是有一定困难的。
为了解决这个问题,研究团队把该阶段的权重作为阶段3的初始化依据,以降低稀疏模型学习的难度。
作为初始化,研究团队把前馈神经网络(FFN)复制多份,作为专家集合的初始化权重。
当视觉token和文本token被送入MoE架构时,router会计算每一个token和专家们的匹配权重,然后被送入最匹配的top-k个专家进行处理,最后根据router的权重加权求和汇聚成输出。
当top-k个专家被激活时,其余的专家保持静默,这种模型构成了具有无限可能的稀疏通路的MoE-LLaVA。
整体上,在ScienceQA数据集上训练时,所有的MoE layer中的专家的负载比较平衡。
然而随着模型逐渐被稀疏化,第17到27层的专家的负载突然增大,甚至几乎包揽了所有tokens。
对于浅层的5-11层,主要是由专家2、3、4共同协作。值得关注的是,专家1几乎只在第1-3层工作,随着模型变深,专家1逐渐退出了工作。
可以看出,MoE-LLaVA的专家们学到了某种特定的模式,它能够按照一定的规律进行专家们的分工。
进一步地,研究团队还分析了不同专家的模态分布,发现文本和图像的专家分布极其相似。
例如,当专家3在17-27层工作时,它所处理的文本和图像的占比是相似的,这展现出MoE-LLaVA中的专家对于模态并无明显的偏好。
同时,研究团队还在token层次上观察了专家们的行为,跟踪了所有token在稀疏网络中的轨迹在下游任务。
通过PCA降维方式,研究团队分析了对文本和图像所有的激活的通路,得到了主要的10条通路。
团队还发现,对于某个未见的文本或图像token,MoE-LLaVA始终偏向于派发专家2和3来处理;专家1、4则倾向于处理初始化的token。
作者简介
MoE-LLaVA由北大深研院信息工程学院袁粒课题组主导,该课题组主要研究机器视觉、机器学习和脑科学。
去年推出的法律大模型ChatLaw和AI表格工具酷表(ChatExcel),该课题组都有参与其中。
本文第一作者是该实验室的硕士生林彬,此前他还以一作或共同一作的身份参与过和多模态对齐框架LanguageBind(入选ICLR 2024)、视频大模型Video-LLaVA等工作。
此外,来自中山大学、腾讯、FarReel AI Lab、鹏城实验室等机构的研究人员也参与了本项目。
Github:https://github.com/PKU-YuanGroup/MoE-LLaVA论文地址:https://arxiv.org/abs/2401.15947Demo:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
混合专家(MoE)架构已支持多模态大模型,开发者终于不用卷参数量了!
北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA,登上了GitHub热榜。
它仅有3B激活参数,表现却已和7B稠密模型持平,甚至部分指标比13B的模型还要好。
从一张图表中,MoE-LLaVA可以精准分析之中的细节,连线条的颜色都能把控到位。
推理能力也十分优秀,能够根据照片场景针对性地给出旅行建议。
在物体幻觉基准测试中,MoE-LLaVA取得了近87分的成绩,超过了一众13B模型,占据了成为成绩-参数量图线左上角的位置。
性能方面,在8块V100上,仅需两天时间就能完成MoE-LLaVA的训练。
与简单粗暴地提高参数量相比,MoE架构大幅降低了多模态模型的训练和推理成本。
目前,研究团队已经开放了所有的数据、代码和模型,那么它的表现到底如何呢?
成绩不输13B稠密模型
在图像问答数据集和Benchmark工具上,MoE-LLaVA都取得了优异的测试成绩。
与前SOTA方法LLaVA-1.5相比,MoE-LLaVA-2.7B×4展现了强大的图片理解能力,在5个数据集上的表现非常接近LLaVA-1.5。
其中,在SQA数据集上,MoE-LLaVA的成绩比LLaVA-1.5-7B还要领先1.9个百分点。
而相比于小规模多模态模型TinyGPT-V,MoE-LLaVA-1.8B×4在相当的激活参数下,在GQA和VisWiz数据集中分别超出27.5和10个百分点,说明了MoE-LLaVA拥有强大的视觉理解能力。
为了更全面的验证MoE-LLaVA的多模态理解能力,研究团队在4个Benchmark工具包上评估了它的性能。
Benchmark工具包中的答案通常是开放性的,而且没有固定模板,目的是验证模型能否能完成自然语言问答任务。
结果,MoE-LLaVA-1.8B×4超过了图片分辨率更高的Qwen-VL,说明MoE-LLaVA这一稀疏模型可以用更少的激活参数达到和稠密模型相当甚至更好的性能。
此外,研究团队还采用POPE工具评估了验证MoE-LLaVA的幻觉,结果它表现最好的性能,意味着它能准确辨别图像内容。
具体来说,MoE-LLaVA-1.8B×4以2.2B的激活参数量,超过了13B的LLaVA-1.5。
另外,MoE-LLaVA的yes ratio占比处于较均衡状态,说明它能够根据问题做出正确的反馈。
那么,MoE-LLaVA具体是如何实现的呢?
向多模态模型中引入MoE架构
MoE-LLaVA采用三阶段的训练策略,整体工作流程如下图所示。
前两个阶段中,图像和文本信息分别被视觉编码器(VE)和文本嵌入层(WEL)转化为token。
具体来看,阶段1的目标是把视觉token转换成LLM能理解的形式。
为了实现这一点,研究团队采用一个多层感知机(MLP)将视觉token投影到LLM的输入域,使其作为LLM能理解的伪文本token。
在这个阶段,LLM被训练学会描述图片,为理解更高层次的图片语义的打下基础。
阶段2是用多模态的指令数据来对LLM进行微调,使之成为有多模态理解能力的模型。
这个阶段的指令更加复杂,包含图片逻辑推理、文字识别等高级任务,对模型的多模态理解能力有了更高的要求。
通常来说,如果是稠密多模态模型,训练过程到此就完成了,但研究团队发现同时将LLM多模态化和稀疏化是有一定困难的。
为了解决这个问题,研究团队把该阶段的权重作为阶段3的初始化依据,以降低稀疏模型学习的难度。
作为初始化,研究团队把前馈神经网络(FFN)复制多份,作为专家集合的初始化权重。
当视觉token和文本token被送入MoE架构时,router会计算每一个token和专家们的匹配权重,然后被送入最匹配的top-k个专家进行处理,最后根据router的权重加权求和汇聚成输出。
当top-k个专家被激活时,其余的专家保持静默,这种模型构成了具有无限可能的稀疏通路的MoE-LLaVA。
整体上,在ScienceQA数据集上训练时,所有的MoE layer中的专家的负载比较平衡。
然而随着模型逐渐被稀疏化,第17到27层的专家的负载突然增大,甚至几乎包揽了所有tokens。
对于浅层的5-11层,主要是由专家2、3、4共同协作。值得关注的是,专家1几乎只在第1-3层工作,随着模型变深,专家1逐渐退出了工作。
可以看出,MoE-LLaVA的专家们学到了某种特定的模式,它能够按照一定的规律进行专家们的分工。
进一步地,研究团队还分析了不同专家的模态分布,发现文本和图像的专家分布极其相似。
例如,当专家3在17-27层工作时,它所处理的文本和图像的占比是相似的,这展现出MoE-LLaVA中的专家对于模态并无明显的偏好。
同时,研究团队还在token层次上观察了专家们的行为,跟踪了所有token在稀疏网络中的轨迹在下游任务。
通过PCA降维方式,研究团队分析了对文本和图像所有的激活的通路,得到了主要的10条通路。
团队还发现,对于某个未见的文本或图像token,MoE-LLaVA始终偏向于派发专家2和3来处理;专家1、4则倾向于处理初始化的token。
作者简介
MoE-LLaVA由北大深研院信息工程学院袁粒课题组主导,该课题组主要研究机器视觉、机器学习和脑科学。
去年推出的法律大模型ChatLaw和AI表格工具酷表(ChatExcel),该课题组都有参与其中。
本文第一作者是该实验室的硕士生林彬,此前他还以一作或共同一作的身份参与过和多模态对齐框架LanguageBind(入选ICLR 2024)、视频大模型Video-LLaVA等工作。
此外,来自中山大学、腾讯、FarReel AI Lab、鹏城实验室等机构的研究人员也参与了本项目。
Github:https://github.com/PKU-YuanGroup/MoE-LLaVA论文地址:https://arxiv.org/abs/2401.15947Demo:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~