【AI前沿】开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑



开源多模态SOTA模型再易主!
Hugging Face开发者大使刚刚把王冠交给了CogVLM2,来自大模型创业公司智谱AI。
CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro,还不是超过一点,是大幅领先。

网友闻讯而来,发现ChatGPT新绝技之“AI挑瓜”,我们开源届也不缺了。


更复杂的学术图表,它也能理解并给出详细解释。

CogVLM2整体模型参数量仅19B,却能在多项指标取得接近或超过GPT-4V的水平,此外还有几大亮点:
支持8K文本长度
支持高达1344*1344的图像分辨率
提供支持中英文双语的开源模型版本
开源可商用

英文版经网友测试也有不错的表现。

特别值得注意的是,尽管CogVLM2的总参数量为19B,但得益于精心设计的多专家模块结构,每次进行推理时实际激活的参数量仅约12B,这样一来,全量推理(BF16/PF16)需要42GB 显存。
接下来划重点了:
Int4量化版本,仅需要16GB显存。
也就是一张英伟达RTX4080,或者刚出不久的RTX4070 Ti SUPER就能搞定了。
性能不俗,算力需求也不离谱,以至于刚开源不久就在GitHub上小火了一把,各类开发者带着自己的场景来找团队咨询。

团队也贴心的表示,考虑到很多实际场景需要微调,专门给大家提供了Lora微调代码。
冻结视觉部分,BF16 Lora微调仅需57GB显存
如果同时对视觉部分进行 BF16 Lora微调,则至少需要80GB显存

CogVLM2也提供在线Demo,感兴趣的话可以先试玩一下。
(试玩地址在文末领取)

好嘛,一般的小诡计还真骗不过它~
大模型整合视觉专家模块
其实去年10月,团队就发布了CogVLM一代,量子位当时也介绍过。
系列的核心思路,是给大语言模型的每一层都添加可训练的视觉专家模块,以实现图像特征和文本特征的深度对齐,而不会牺牲NLP任务的性能。
可以说是把视觉语言模型的训练方式,从图像文本的浅层对齐,转向了深度融合。

CogVLM2在继承这一经典架构的基础上,做了不少优化和改进。
语言模型基座升级成最新的Llama3-8B-Instruct,视觉编码器升级到5B、视觉专家模块也升级到7B,支持更高的图像分辨率等等。
特别是视觉专家模块,通过独特的参数设置精细地建模了视觉与语言序列的交互,确保了在增强视觉理解能力的同时,不会削弱模型在语言处理上的原有优势。
升级后能力有多强?
在不损失任何通用能力的前提下,在许多关键指标上有了显著提升,如在 OCRbench基准上性能提升32%,在TextVQA基准上性能提升21.9%,且模型具备了较强的文档图像理解能力(DocVQA)等。
也可以来个更直观的展示:
现在,复杂的模型架构图都可以让CogVLM2自己描述一遍,而一代的时候我们也测试过,当时还是有难度的。

为了更为严格地验证CogVLM的性能和泛化能力,一系列多模态基准上的定量评估更能说明问题。
CogVLM2的两个模型,尽管具有较小的模型尺寸,但在多个基准中取得 SOTA性能;而在其他性能上,也能达到与闭源模型(例如GPT-4V、Gemini Pro等)接近的水平。

中文能力到位,模型代码试玩开放
可能有人会疑惑,Llama3系列是出了名的能看懂中文,但死活不愿意用中文完整回答,有一种各说各话、跨服交流的美。
怎么到CogVLM2这里,加入视觉专家模块之后,中文输出能力也这么6了?
我们就这个问题询问了智谱团队,他们表示为了解决这个问题可费了不少功夫。
团队判断Llama 3 8B Instruct模型的训练数据中可能包含了大量英文数据,而中文数据的比例相对较低。
找到问题,就能对症下药了:
首先,在预训练阶段,团队收集了大量的中文图文数据,涵盖了中文场景的各种情况。
特别是针对中文场景进行了OCR和文档等类型的数据收集。通过这些数据,我们使得模型在预训练阶段就能够充分接触和理解中文语境。
其次,在指令微调阶段也构造了一些高质量的中文数据。这些数据包含了各种中文指令和对应的回答,使得模型能够更好地理解和回答中文问题。在这个过程中确保中英数据的比例在一个合理的范围内,从而使得模型在处理中文问题时能够更加得心应手。
通过这些措施,CogVLM2在支持中文方面就有了显著的提升,无论是在理解中文问题还是在用中文回答问题方面,都成了亮点和优势。
比如识别火车票信息,再整理成json格式,部分文字反光或者掉色也不受影响。

又或者识别并描述复杂户型图,连注释和水印都不放过。

又或者识别中文手写字体。

甚至古代字体。

最后,奉上CogVLM2开源相关的一系列链接,感兴趣的朋友可以自取。
团队还透露,GLM新版本会内嵌CogVLM2能力,在智谱清言App和智谱AI大模型MaaS开放平台上线。
代码仓库:github.com/THUDM/CogVLM2
模型下载:Huggingface:huggingface.co/THUDM魔搭社区:modelscope.cn/models/ZhipuAI始智社区:wisemodel.cn/models/ZhipuAI
Demo体验:http://36.103.203.44:7861
— 完 —
人工智能产业链联盟高端社区

相关阅读
【碳中和】珍藏版!22个国内外“碳中和”相关报告合集!
【工业机器人】全球工业机器人详细产业链梳理!
【工业机器人】日本工业机器人大盘点
【工业机器人】详解工业机器人控制系统架构
【机器人】一文解析机器人发展趋势,从自动化演进到自主化
【机器人】全球首个活体机器人诞生:100%青蛙基因,撕成两半能自我愈合,还能注入体内摧毁癌细胞
【智能工厂】智能工厂如何快速落地
【工业技术】航空制造推动新概念机器人发展(上)
【工业技术】航空制造推动新概念机器人发展(下)
一文读懂人脸识别技术
【神经网络】给初学者们讲解人工神经网络(ANN)
人工智能的基础--知识分类
人工智能产业链深度透析—基础层
人工智能产业链深度透析-技术层
人工智能全产业链深度透析--(综合)
人工智能产业链深度透析—产业应用医疗篇
朱松纯 | 人工智能的现状、任务、构架与统一(上)
朱松纯 | 人工智能的现状、任务、构架与统一(中)
朱松纯 | 人工智能的现状、任务、构架与统一(下)
【智慧农业】2018中国农牧家禽行业智慧养殖白皮书
【智慧农业】2019年智慧农业市场调研及前景研究报告(附PDF下载)
【智能家居】我国智能锁产业现状及未来发展趋势分析
【知识图谱】详解知识图谱关键技术与应用、AI图谱技术在知乎的应用实践、如何构建多快好省的“知识图谱即服务”
【智造】重磅!《中国智能制造排行榜TOP100》榜单发布 揭露智能制造发展趋势
荐:
【中国风动漫】《姜子牙》刷屏背后,藏着中国动画100年内幕
【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

声明
内容来源:网络等,免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)
编辑:Zero




到顶部