GPT-4变笨实锤！3个月性能暴减1/10，代码生成大不如前，斯坦福最新研究引爆舆论

目录原贴更新下载字体：小中大背景：原标记

2023-07-22 12:20#1 标记1

【导读】GPT-4性能下降终于有了依据。
GPT-4变笨实锤了？
斯坦福、UC伯克利最新研究称，和3月相比，GPT-4在6月的性能直接暴降。
甚至，代码生成、问题回答大不如前。

论文地址：https://arxiv.org/pdf/2307.09009.pdf
比如问「这个数是质数吗」，GPT-4一步一步思考的成功率从97.6%降到2.4%。

GPT-4性能骤减早有端倪。有网友甚至把3小时25条额度一口气用完，也没有解决问题。

而这次，斯坦福研究一出瞬间引爆舆论，让所有人大吃一惊的是，GPT-4竟然性能下降1/10。
就连OpenAI站出来，表示对此关注，正积极调查大家分享的报告。

那么，这项斯坦福论文究竟说了什么？
安全了，但智商下线了
总的来说，GPT-4在3月和6月性能对比，主要在四个任务中有明显的下降。
- 解决数学问题
- 回答敏感问题
- 代码生成
- 视觉推理

求解数学问题，CoT失败了
在求解数学问题上，GPT-4准确率不仅下降，就连解题步骤都给省了。

为了判断GPT-4和GPT-3.5针对「给定整数是否为质数」的能力的偏差，研究团队用500个问题组成的数据集对模型进行了评估。
同时，研究还利用思想链帮助模型进行推理。
结果显示，3 月，GPT-4正确回答了其中的488个问题。而在6月，它只答对了12个问题。
GPT-4准确率从 97.6%直降到 2.4%！
相应地，GPT-3.5的准确率则有较大提升，从7.4%上升到86.8%。

此外，GPT-4 的响应变得更加紧凑：生成平均字符数从3月821.2降到6的3.8。另一方面，GPT-3.5 的响应长度增长了约 40%。
3月和6月版本之间的答案重叠度，都比较低。
那么，为什么会有这么大的差异？一种可能的解释是思维链效果的变化。

如上，为了确定17077是否是质数，GPT-4 3月版很好地遵循了CoT指令，并将任务分解成4个步骤。
然而，这种思维链对于6月版并不起作用：没有生成任何解题步骤，只输出了「不是」。
在GPT-3.5中，在3月份解答中答案是错误的，6月更新后解决了这个问题。
这一有趣的现象表明，同样的提示方法，即使是这些被广泛采用的方法，如CoT，也可能由于LLM变化而导致显著不同的性能。
代码生成，更加冗长，难以执行
另外，GPT-4代码生成也变得更糟了。
研究团队从LeetCode中建立了一个包含50个简单问题的数据集，并测试了有多少GPT-4答案在不做任何修改的情况下运行。
结果，3月份的版本在52%的问题上取得了成功，但6月的模型，成功率下降到了10%。GPT-4 的冗长程度也增加了20%。

同时，GPT-3.5的下降幅度也很大，从22%降至2%。
此外，3月份，GPT-4和GPT-3.5都遵循用户指令，从而产生了直接可执行的生成。
然而，在6月份，他们在代码片段前后添加了额外的「引号」，导致代码无法执行。

回答敏感问题，更安全但缺乏理由
还有GPT-4回答问题变得更加小心谨慎了。
正是因为语言模型会带来社会偏见，输出有毒内容，产生幻觉，OpenAI对此做了大量的对齐工作。
结果可想而知，GPT-4真的被「打」听话了。
研究中，团队创建了一个包含100个LLM服务不应直接回答的敏感问题集，测试模型后，观察到这项任务的两个主要趋势。
首先，从3月（21%）到 6月（5%），GPT-4回答的敏感问题较少，而GPT-3.5回答的敏感问题较多（从 2%-8%）。
6月份，GPT-4的更新中可能会部署更强大的安全层，而 GPT-3.5 则变得不再保守。

另一个观察结果是，GPT-4 的生成长度（以字符数衡量）从600多个下降到140左右。
为什么生成字符长度发生变化？
除了回答更少的问题之外，这也是因为GPT-4变得更加简洁，并且在拒绝回答查询时提供的解释也更少。
如下，在无法回答用户问题时，GPT-4在3月生成了一整段原因来解释，6月版简单生成了「抱歉，我无法提供帮助」。
简之，废话变少了。

此外，研究人员通过利用「AIM攻击」还对模型进行了越狱攻击。
AIM攻击描述了一个假设的事件，并要求LLM服务充当未经过滤且不道德的聊天机器人。
如下表所示，当部署AIM攻击时，GPT-4和GPT-3.5的应答率都有大幅增加。
然而，它们的时间漂移有很大不同。对于GPT-4，AIM攻击在3月产生了78%的直接答案，但在6月仅产生了 31%。
对于GPT-3.5，两个版本之间只有4%的回答率差异。这表明GPT-4的更新比GPT-3.5更能抵御越狱攻击。

视觉推理，边际改进
最后，研究人员利用ARC数据集中467个样本来评估了GPT-4和GPT-3.5的视觉推理能力。
结果显示，对于GPT-4和GPT-3.5，从3月到6月，精确匹配率均提高了2%。响应长度大致不变。
虽然总体GPT-4随着时间的推移变得更好，但在如下的特定查询上却变得更糟。
它在3月给出了正确的答案，但在6月份给出的答案是错误的。

GPT-4能力下降这么多，事实真是如此吗？
普林斯顿教授实名反对
不过，这篇论文的内容还是值得好好推敲推敲的。
粗暴地总结为GPT-4变烂，就有些过于概括了。

文章地址：https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time
能力≠行为
首先，聊天机器人的一个重要概念是，能力和行为之间存在着很大的差异。
一个具有某种能力的模型，可能会或可能不会在回应特定提示时，显示出这种能力。
而让聊天机器人获得能力的预训练过程代价极高，对于最大的模型来说，可能需要数月的时间，因此永远不会重复。
另一方面，模型的行为也会受到后续微调的影响。相比起来，微调成本要低得多，而且会定期进行。
请注意，经过预训练的基础模型只是一个高级的自动完成工具——它不会与用户聊天，聊天行为是通过微调产生的。
微调的另一个重要目标是防止出现不良输出。换句话说，微调既能激发能力，也能抑制能力。
基于这些知识，我们就可以预料到，随着时间的推移，模型的能力会保持相对稳定，但它的行为却会有很大的变化。这与论文的发现完全一致。
没有能力下降的证据
论文作者在四项任务中，对GPT-3.5和GPT-4进行了测试。
OpenAI通过其API提供了模型在三月和六月的「快照」，因此论文中所比较的，也是这两个模型快照的行为。
具体来说，他们选择了数学问题（检查一个数字是否是质数）、回答敏感问题、代码生成和视觉推理，这四类问题进。其中，数学问题和代码生成这两项任务的性能有所下降。
在代码生成方面，他们提到的变化是较新的GPT-4在输出中添加了非代码文本。
出于某种原因，作者没有评估代码的正确性。而只是检查代码是否可直接执行，也就是说，它是否构成了一个完整、有效的程序。
所以，新模型试图更有帮助的做法反而对其不利。
不仅如此，他们评估数学问题的方式更是奇怪。
500道是/否问题，但正确答案始终是「是」
用作测试的数学问题，是「17077是质数吗」这样的形式。
然而，作者选的500个数字，都是质数！
事实证明，在大多数情况下，没有一个模型真正执行了检查数字是否有除数的算法——它们只是假装这么做了。
也就是说，他们开始推理，然后直接跳到了最后。
下面是作者数据中的一个回应片段（GPT-4的三月快照）：

模型虽然正确地列出了所有需要检查的潜在因素，但没有实际检查它们！
这在论文展示的例子中也是显而易见的，但作者却忽略了这一点，并将其作为一项数学解题测试。
由于论文只在质数上进行了测试，为了补充这个评估，普林斯顿的研究人员用500个合数测试了模型。
事实证明，作者发现的大部分性能下降都可以归因于对评估数据的选择。
看起来变化的是：GPT-4的三月版本几乎总是猜测数字是质数，六月版本则总是猜测它是合数。对于GPT-3.5，这种行为正好相反。
因为作者只测试了质数，所以他们把这一现象解释为性能的下降。
实际上，如下图所示，四个模型都一样的糟糕——它们都是基于他们被校准的方式来猜测的。
简单来说就是，在微调过程中，有些模型可能接触到了更多涉及质数的数学问题，而其他的则是合数。

GPT-3.5的六月版本和GPT-4的三月版本几乎总是推断数字是质数，而另外两个模型则正好相反。
但是论文只测试了质数，因此得出结论：GPT-3.5的性能提高了，GPT-4的性能下降了。
简而言之，论文中的所有内容都与模型随时间变化而变化的行为相一致，且没有任何一项表明模型的能力出现了下降。
即使是行为变化，似乎也是作者评估中的特殊情况，目前还不清楚他们的发现能否推广到其他任务中。
为什么这篇论文会引发争议？
过去几个月，有不少人根据自己的使用经验，推测GPT-4的性能已经出现了下降。
当GPT-4的架构（据称）被泄露时，有一个广为流传的说法称，OpenAI为了节省计算时间和成本而降低了性能。
OpenAI方面对此矢口否认，但用户们并不买账。
因此，当这篇论文出来时，似乎证实了这些长期以来的猜测。
普林斯顿的研究人员表示，虽然无法确定传言是否属实，但可以肯定的是，这篇论文并没有提供相关证据。
在那些对性能下降持怀疑态度的人中，最受欢迎的假设是：当人们越来越多地使用ChatGPT时，就会更容易注意到它的局限性。
但，这里还有另一种可能。
在LLM API上很难构建可靠的产品
行为变化和能力退化对用户的影响非常相似。
用户往往有着特定的工作流程和提示策略，而这些策略对于他们自己的使用场景来说，非常有效。
鉴于LLM的非确定性，要发现这些策略并找到适合特定应用的工作流程，需要花费大量的精力。
因此，当模型的行为发生漂移时，这些工作流程就可能会失效。
对于受挫的ChatGPT用户来说，告知他们所需的能力仍然存在，但现在要用新的提示策略才能激发，显然是无济于事的。
而对于基于那些GPT API构建的应用程序来说，情况尤其如此。如果模型的行为发生变化，那么已经部署给用户的代码就很可能会出现问题。
为了缓解这一问题，OpenAI提供了模型快照，但只保留几个月，并要求应用开发人员进行定期更新。
正如普林斯顿的研究人员之前所提到的，这凸显了使用这些API进行可重复性研究，或者在其基础上构建可靠的产品是多么困难。
简而言之，新论文并未显示出GPT-4的能力退化。但这是一个很有价值的提醒：对LLM经常进行的微调可能会产生意想不到的影响，包括某些任务的显著行为变化。
最后，我们发现的陷阱揭示了，对语言模型进行定量评估是多么的困难。
作者介绍
Sayash Kapoor

Kapoor是普林斯顿大学信息技术政策中心的计算机科学博士候选人。他的研究重点集中在AI对社会的影响。
在此之前，Kapoor曾在Facebook、哥伦比亚大学和瑞士EPFL从事AI方面的学术研究，他曾获得ACM FAccT最佳论文奖和ACM CSCW影响力认可奖。
目前，Kapoor正在与Arvind Narayanan合著一本关于AI「蛇油」（Snake Oil）的书。这本书批判性地探讨了AI能做什么和不能做什么。
Arvind Narayanan

Narayanan是普林斯顿大学计算机科学教授，兼信息技术政策中心主任。
Narayanan的研究集中在数字技术，尤其是AI对社会的影响，和Kapoor是合作关系。
Arvind Narayanan是普林斯顿大学计算机科学教授和信息技术政策中心主任。
他曾与人合著过一本关于公平与机器学习的教科书，目前正在与Kapoor合著一本关于AI「蛇油」的书。
他领导了普林斯顿网络透明与问责项目，揭示公司如何收集和使用用户的个人信息。Narayanan的研究是最早表明机器学习如何反映文化成见的研究之一，他的博士研究表明了去身份化的根本局限性。
Narayanan曾获得过总统科学家和工程师早期职业奖 (PECASE)，两次获得隐私增强技术奖 (Privacy Enhancing Technologies Award)，三次获得决策者隐私论文奖 (Privacy Papers for Policy Makers Award)。
网友热议
英伟达科学家Jim Fan表示，我们中的许多从业人员都认为，GPT-4会随着时间的推移而退化。
但是，GPT-4为什么会退化，我们又能从中学到什么呢？以下是我的想法：

- 安全性与有用性的权衡
论文显示，GPT-4 Jun版本比Mar版本「更安全」，因为它更有可能拒绝敏感问题（回答率从21%降到5%）。
不幸的是，更高的安全性通常是以更低的实用性为代价的，这可能会导致认知能力的下降。我的猜测是（没有证据，只是推测），OpenAI从3月-6月花了大部分精力进行「脑叶切除术」，没有时间完全恢复其他重要的能力。
- 安全对齐使编码变得不必要地冗长
论文显示，GPT-4 Jun往往会混入无用的文本，即使提示明确指出「只生成代码，不包含任何其他文本」。
这意味着实践者现在需要手动对输出进行后处理才能执行。这在LLM软件栈中是个大麻烦。我认为这是安全对齐的副作用。
我们都见过GPT添加警告、免责声明（我不是<领域>专家，所以请咨询......）和反驳（话虽如此，但尊重他人很重要......），通常是在一个原本非常直接的答案上。如果整个「大脑」都被调整成这样，编码也会受到影响。
- 成本削减
没有人知道GPT-4 Jun是否与GPT-4 Mar是完全相同的MOE配置。有可能 (1) 参数量减少，(2) 专家数量减少，和/或 (3) 较简单的查询被路由到较小的专家，只有复杂的查询才保持原来的计算成本。
- 持续集成将是一个至关重要的LLM研发课题
人工智能领域几乎没有赶上一般软件领域认为理所当然的事情。即使是这篇研究论文，也没有对MMLU、Math 和 HumanEval等基准进行全面的回归测试。
它只研究了一个特定的质数检测问题。GPT-4在三角函数上回归了吗？其他推理任务呢？不同编程语言的代码质量以及自调试能力如何？
马库斯问道，从RLHF微调如何？

还有网友表示，没错，他们有可能在操纵模型，决定让哪个专家参与进来。削减成本总是一个好选择。
不幸的是，除非OpenAI解释发生了什么，否则我们无法知道。但正如你所说，他们否认质量变差了。

我也注意到了同样的情况。我目前的工作流是必应（虽然也是GPT，但有更多的数据和研究驱动）、GPT-4和Claude 2的组合，后者最近更优先。

在我看来，这就是开源模型会获胜的原因。

参考资料：
https://arxiv.org/abs/2307.09009
https://twitter.com/drjimfan/status/1681716564335394817?s=46&t=iBppoR0Tk6jtBDcof0HHgg
https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time
人工智能产业链联盟高端社区

相关阅读
【碳中和】珍藏版！22个国内外“碳中和”相关报告合集！
【工业机器人】全球工业机器人详细产业链梳理！
【智能制造】智能制造50大产业链全景图
【智能工厂】智能工厂如何快速落地
【工业技术】航空制造推动新概念机器人发展（上）
【工业技术】航空制造推动新概念机器人发展（下）
【新基建+人工智能生态】全网最火“新基建”生态图谱—人工智能篇（含40个细分领域厂商）
【AI】一文读懂人脸识别技术
【AI】解析 | 人工智能发展及技术架构
【报告】中国人工智能厂商全景报告（附PDF下载）
【AI】（收藏）从 A-Z 全面盘点人工智能专业术语梳理！
【AI】计算机视觉入门大全：基础概念、运行原理、应用案例详解
【AI】一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别
【智能仓储】一文带你彻底搞懂智能仓储！
【深度学习】12张高清思维导图，总结深度学习
【神经网络】给初学者们讲解人工神经网络（ANN）
人工智能的基础--知识分类
【AI产业链】120图勾勒全球AI产业完整图谱!
【AI】一文读懂人工智能产业链
【AI】中国人脸识别产业链全景图！
【AI】史上最全的人工智能（AI）产业链地图！
【芯片】国产芯片大全：70个细分领域代表企业
人工智能产业链深度透析—基础层
人工智能产业链深度透析-技术层
人工智能全产业链深度透析--（综合）
人工智能产业链深度透析—产业应用医疗篇
朱松纯 | 人工智能的现状、任务、构架与统一（上）
朱松纯 | 人工智能的现状、任务、构架与统一（中）
朱松纯 | 人工智能的现状、任务、构架与统一（下）
【AI】美国国家人工智能研发战略规划2019
【智慧农业】2018中国农牧家禽行业智慧养殖白皮书
【智慧农业】2019年智慧农业市场调研及前景研究报告（附PDF下载）
【智能家居】我国智能锁产业现状及未来发展趋势分析
【知识图谱】详解知识图谱关键技术与应用、AI图谱技术在知乎的应用实践、如何构建多快好省的“知识图谱即服务”
荐：
【中国风动漫】《姜子牙》刷屏背后，藏着中国动画100年内幕
【中国风动漫】除了《哪吒》，这些良心国产动画也应该被更多人知道！
【中国风动漫】《雾山五行》大火，却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折！

声明
免责声明：部分文章和信息来源于互联网，不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题，请立即与小编联系（微信号：913572853），我们将迅速采取适当的措施。本订阅号原创内容，转载需授权，并注明作者和出处。如需投稿请与小助理联系（微信号：AI480908961）
编辑：Zero

推荐关注↓↓↓