国产「GPTs」登场！清华系重磅发布GLM-4全家桶，性能可达90% GPT-4

2024-01-18 12:20#1 标记1

【导读】狂飙三个月，智谱AI的大模型全家桶震撼发布了！GLM-4性能超进化，堪称「国产GPT-4」；GLMs和GLM Store，直接对标OpenAI的GPTs。
今天，国内唯一一家全系对标OpenAI的公司，又搞了一个大新闻！
就在刚刚，智谱AI发布了「新一代基座大模型」GLM-4——性能全面比肩GPT-4。
其中，GLM-4不仅在中文能力上超过了所有竞争对手。

而且，长文本能力也一骑绝尘，实现了128K「大海捞针」全绿。

除此之外，智谱AI这次还发布了「定制化的个人GLM大模型」GLMs和GLM Store，再次对标OpenAI的GPTs！

新一代GLM-4，全面比肩GPT-4！
那么，这次新一代基座大模型GLM-4，究竟强在了哪？
与上一代ChatGLM3相比，GLM-4在综合能力上实现了全面跃升，性能提升了60%，已经逼近GPT-4。
它能够支持更长的上下文，具备更强的多模态功能，支持更快的推理，更多并发，推理成本大大降低。
同时，GLM-4也增强了智能体能力。
基础能力
从众多评测集中可以看到，GLM-4的性能提升非常明显。
相比于GPT-4，GLM-4在MMLU、GSM8K、BBH、HellaSwag数据集上分布达到了94%、95%、99%和90%的水平。
而在HumanEval数据集上，GLM-4则拿到了72分，明显超过了GPT-3.5和GPT-4的水平。

指令跟随
在IFEval评测集上，在Prompt提示词跟随（中文）方面，GLM-4达到了GPT-4 88%的水平。
在指令跟随（中文）方面，则达到了GPT-4 90%水平，大大超过GPT-3.5。

中文对齐
在模型实际应用过程中，大家更关注的，是中文的对齐能力。
在对齐能力上，基于AlignBench数据集，GLM-4超过了GPT-4在6月13日发布的版本，逼近GPT-4最新（11月6日Turbo版本）效果。
在专业能力、中文理解、角色扮演方面，GLM-4甚至超过了GPT-4的精度。
不过，在中文推理方面，GLM-4的能力还有待进一步提升。

128K长文本
此前的128K大海捞针测试，难倒了众多大模型，但GLM-4却顺利通过。
在大海捞针测试中，128K文本长度内，GLM-4模型均可做到几乎百分百的精度召回。

GLM-4带来128K的上下文窗口长度，也就意味着，在单次提示词中，可处理文本达到了300页。
开发者再也不用担心文档太长，一次性处理不完了。
同时，模型的效果和精度也并没有下降。智谱AI团队完美解决了长上下文全局信息因失焦而导致的精度下降的问题。
多模态能力
这一次，GLM-4的文生图和多模态理解都得到增强。
全新推出的CogView3，效果明显超过开源最佳的Stable Diffusion XL，逼近最新OpenAI发布的DALL·E 3。

在对齐、保真、安全、组合布局等各个评测维度上，CogView3的效果都达到DALL·E3 90%以上水平。
相对之前，CogView3的语义理解能力都得到大大增强。
「鱼眼镜头中，有一只乌龟坐在森林里。」
模型准确地理解了什么是鱼眼镜头，以及乌龟在森林里的环境应该是怎么搭配的。

「西兰花下面的斑马」，模型理解得很准确。

「一只打扮的像20世纪80年代的职业摔跤手的博美犬，脸上涂着霓虹绿、霓虹橙，还有亮绿色的颜料」，这么复杂的prompt，模型也没出错，对于颜色、场景，都做到了高质量还原。

「一个放大镜在一页20世纪50年代的《蝙蝠侠》漫画的上空」，模型非常准确地理解了空间位置，以及放大镜蕴含的逻辑作用。

GLM-4 All Tools全家桶来了
上面，都还只是常规的单项模型基础能力提升，大会上最让人眼前一亮的，还是GLM-4-All-Tools全家桶。

在以往，我们都需要魔法咒语一样的提示词或者代码，才能调用大模型的能力。无论是回答问题、画一幅画还是使用外部知识源，总觉得LLM还不够聪明。
而现在，得益于GLM模型的强大Agent能力，GLM-4实现了自主根据用户意图，自动理解、规划复杂指令，自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力，从而完成更加复杂的任务。
也就是说，GLM全家桶的能力，终于实现了ALL IN ONE！
画图
在AI画图方面，GLM-4 All Tools可以很好地结合上下文语境进行创作。
比如，我们可以先画一只卡通柯基。

随后只要说「它开始跑步了」，GLM-4 All Tools就能理解，我们要的还是这只柯基在往前跑。

告诉GLM-4 All Tools「一只小兔子加入它一起」，它就明白柯基是主角，兔子需要跟在柯基后面，同时保持奔跑。

告诉它「跑得越来越快了」，背景就会虚化。

总之，GLM-4 All Tools对上下文语境的理解非常准确。
代码解释器
同样，GLM-4也内嵌了代码解释器，能够自动调用代码解释器，进行复杂的方程或者微积分求解。
在以下数据集上，GLM-4 All Tools取得了和GPT-4 All Tools相当的性能。

下面这道数学多项式，该怎么求解？

或许可以直接训练一个数学模型，但问题更复杂的时候，LLM就容易出现幻觉。
而GLM-4，则可以通过调用Python解释器，进行复杂计算，自动写出求解代码。

不仅是数学问题，代码解释器还能完成文件处理、数据分析、图表绘制等复杂任务，支持处理Excel、PDF、PPT等格式的文件。
可以让模型自动生成PPT大纲，还能调用代码，生成PPT文件。

网页浏览
靠着All Tools全家桶，GLM-4可以实现更高级的网页浏览。
期间，模型会根据任务自行规划检索任务，自行选择信息源，自行与信息源交互。

比如可以问它：我要参加2023年的CCF开源大会，当地天气是怎样的？
这个问题的难点在于，我们并没有告诉它会议地点，模型自动进行了两次搜索，第一搜到了大会是10月21日在长沙举行，第二次搜到了长沙在10月21日的天气。

可以看到，GLM-4 All Tools的网页浏览准确率，已经超过了GPT-4，令人印象深刻。

Function Call
All Tool还有一个通用能力：根据用户提供的function描述，自动选择所需function并生成参数，以及根据function的返回值生成回复。
这方面的能力，已经跟GPT-4基本持平，在中文理解上，GLM-4 All Tools比GPT-4略强。

多工具自动调用现场实测
在大会现场，GLM-4 All Tools进行了一番怼脸实测。
比如，让GLM-4 All Tools联网搜索「智谱2024 DevDay的宣传语」，然后就此主题画一幅画。
可以看到，大模型自动搜索找到了相关发布页面。

同时，生成的图片也很好地还原了GLM-4的意境。

这幅图描绘了智谱2024 DevDay宣传语中的场景。图中展现了勇敢的⼈站在汹涌的潮头，⾯对远处的⻛暴毫不畏惧。
GLM-4可以识别语义并联网，搜索多个数据源。
它还可以生成一段代码，把生成的数据可视化出来，生成简单的图表。
一句简单的输入，联网搜索、提取、代码解释器、绘图等多项原生能力就随之启动，根本无需手动控制。模型强大的理解、解释能力，也就随之而来。
我们可以让GLM-4搭建一个多项式回归预测模型，预测未来5年的全球GDP发展态势。

这样，就能更直观地看到过去十年和未来五年的发展趋势。

根据从MacroTrends获取的数据，我绘制了2007年⾄2022年全球GDP的折线图。在图表中，我已经将下降的数据点标记为红⾊，以便于识别。您可以查看这张图表，以直观地看到全球GDP的变化情况。
值得一提的是，GLM-4升级后，API调用价格维持0.1元/千tokens不变，继续保持较低水平。
国产「GPTs」全新上线
可以看到，智谱AI针对OpenAI的这种对标，不仅仅是「我有」产品，而是在诸多方面都达到了可比程度。
最令开发者期待的是，国产「GPTs」也来了！
DevDay上，智谱AI上线了定制化个人GLM大模型——GLMs。
现在，无需代码基础，任何用户均可用简单的prompt指令，创建属于自己的GLM模型智能体，从而实现对大模型的便捷开发。
比如，智谱AI这次就给自己的DevDay做了一个GLMs。
只要打开智谱清言，进入智谱DevDay的智能体，就可以提问今天大会的事宜。甚至能直接要到现场PPT的下载地址。

并且，GLMs模型应用商店，也有开发者分成计划。

看得出，智谱AI可定制Agent——GLMs的发布，以及上线的GLM Store，在走和OpenAI一样的路线。
继首届开发者大会上发布定制GPTs之后，OpenAI上周正式推出人们期待已久的GPT Store。
短短2个月的时间，全世界已经诞生了300万个自定义的ChatGPT。网友纷纷表示，这就是AI时代的「APP Store」时刻。

简单来说，GLMs降低了大模型的使用门槛，可以让更多的人参与进来，为AI广泛落地铺平了道路。
相较于调用单纯的大模型，GLMs就像一个Agent，可以通过上传文件，比如私有数据等，让其获得额外的知识。这样，定制化的GLMs就能提升对特定问题回答的准确性，以极高的精度执行任务。

苹果在2008年推出APP Store的最大价值在于，创造了一个新的生态，为第三方开发者带去数百万亿美元的收入。

在AI新时代下，不论是GPT Store，还是GLM Store，都将带领世界开发者走向一条新的LLM商业化道路。
好消息是，GLMs和GLM Store今天就已正式上线！

复杂的模型产业链，一步步做起
众所周知，大模型是一个复杂的产业链。而行业对此的共识是：共同创造，才能产生真正的社会价值。
那么，要做到这一点，首先要让大模型本身的能力足够强。
第一步，模型够强
在这一方面，智谱AI从未停下过自己的脚步。
自2019年成立以来，这家AI初创公司便致力于打造新一代认知智能大模型，专注于做大模型的中国创新。
一年后，智谱AI从0开始研发全新的GLM预训练架构，并在2022年推出了中英双语千亿级超大规模预训练模型GLM-130B。

到了2023年，GLM系列大模型保持每3-4月更新一次的频率，逐渐形成了全面的AIGC产品矩阵。

而这一次，性能足以媲美GPT-4的基座大模型GLM-4，是智谱AI进一步研发能力的体现。
智谱AI CEO张鹏在技术开放日上表示，「GLM-4的推出，标志着国产大模型有能力对标世界人工智能最先进水平」。
模型之后，就是生态
除了模型自身的能力之外，开源社区和学术界的支持也至关重要。
开源的意义在于，联合全球的开发者、研究机构、企业，共同让模型的数据更丰富、模型更优化、应用更全面。
而对于个人开发者和中小企业来说，也能以最低的成本调用模型，不需要花费高昂成本。
在国外，Meta以Llama 1的发布为起点，开辟了开源大模型竞相爆发的新路线。
随着越来越多研究人员的加入，羊驼家族也迎来了大爆发：Alpaca，Vicuna，Llama-Adapter，Lit-Llama等变体相继出现。
几个月后，Llama 2在很大程度上取代了Llama 1，成为功能更强的基础模型，甚至官方还推出了其他的微调版本。

同样，国内的开源引领者智谱AI也早有布局。
2022年，智谱AI率先开源高精度双语千亿模型GLM-130B和ChatGLM-6B。
目前，GLM系列模型在Hugging Face上的下载量已经超过了1100万，在GitHub上累计星标超过5万。而智谱AI也成功跻身全球最受欢迎开源机构第5。

基座大模型GLM-4和GLMs等，会进一步推动GLM的模型生态建设，让智谱AI已经构建起的全模型产品线更加强大。
2024年，智谱对于学术的支持还会继续。1000万元现金和算力资源的大模型科研基金，2023年来已经有三十余所高校参与。
现在，每一个研究者，均有机会参与大模型的研究，还会拥有自己研发的知识产权。

此外，智谱AI还针对开源社区发起了大模型开源基金，为优秀的开发者提供了高达三个「一千」的支持——1000张卡、1000万人民币和1000亿tokens。

同时，智谱AI还重磅升级了面向全球大模型创业者的「Z计划」。
创业基金的总额，达到10亿元！
这项基金，用于支持大模型原始创新，覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用等各个方面。

联合上下游，推动产业升级
而在商业领域，智谱AI在2023年里已经积累了1000多家合作伙伴，并与200多家实现了深度共创。
怎么看一个大模型好不好用？最终结果，还是要看有没有真正的落地。
目前，GLM系列模型的能力，已经覆盖了包括金融、咨询、互联网、传统消费产品、智能制造、传媒等诸多领域。

与此同时，智谱AI还将包括国产芯片、不同垂直领域服务集成商等上下游行业合作伙伴团结到一起，共同推动整个产业进步与升级。
可以看到，围绕着GLM系列模型的生态圈，正在加速形成。
智谱AI CEO张鹏表示，「一枝独秀不是春，中国的人工智能事业要繁荣、要发展，需要所有的参与者、产业链上下游合作伙伴、开发者社区、学术界一同努力。智谱不仅有意愿，而且有能力为打造繁荣的国产大模型生态贡献自己的力量」。
参考资料：
https://chatglm.cn/main/toolsCenter
人工智能产业链联盟高端社区

相关阅读
【碳中和】珍藏版！22个国内外“碳中和”相关报告合集！
【工业机器人】全球工业机器人详细产业链梳理！
【工业机器人】日本工业机器人大盘点
【工业机器人】详解工业机器人控制系统架构
【机器人】一文解析机器人发展趋势，从自动化演进到自主化
【机器人】全球首个活体机器人诞生：100%青蛙基因，撕成两半能自我愈合，还能注入体内摧毁癌细胞
【智能工厂】智能工厂如何快速落地
【工业技术】航空制造推动新概念机器人发展（上）
【工业技术】航空制造推动新概念机器人发展（下）
一文读懂人脸识别技术
【神经网络】给初学者们讲解人工神经网络（ANN）
人工智能的基础--知识分类
人工智能产业链深度透析—基础层
人工智能产业链深度透析-技术层
人工智能全产业链深度透析--（综合）
人工智能产业链深度透析—产业应用医疗篇
朱松纯 | 人工智能的现状、任务、构架与统一（上）
朱松纯 | 人工智能的现状、任务、构架与统一（中）
朱松纯 | 人工智能的现状、任务、构架与统一（下）
【智慧农业】2018中国农牧家禽行业智慧养殖白皮书
【智慧农业】2019年智慧农业市场调研及前景研究报告（附PDF下载）
【智能家居】我国智能锁产业现状及未来发展趋势分析
【知识图谱】详解知识图谱关键技术与应用、AI图谱技术在知乎的应用实践、如何构建多快好省的“知识图谱即服务”
【智造】重磅！《中国智能制造排行榜TOP100》榜单发布揭露智能制造发展趋势
荐：
【中国风动漫】《姜子牙》刷屏背后，藏着中国动画100年内幕
【中国风动漫】除了《哪吒》，这些良心国产动画也应该被更多人知道！【中国风动漫】《雾山五行》大火，却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折！

声明
内容来源：网络等，免责声明：部分文章和信息来源于互联网，不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题，请立即与小编联系（微信号：913572853），我们将迅速采取适当的措施。本订阅号原创内容，转载需授权，并注明作者和出处。如需投稿请与小助理联系（微信号：AI480908961）
编辑：Zero