GPT4最强对手Claude 2.1发布:究竟实力如何?让一众大模型原形毕露的方法



本文为1580字,建议阅读4分钟‍
这两天Anthropic(OpenAI早期出走员工初创公司)重磅发布了Claude 2.1,号称提供了业界领先的 20 万令牌上下文窗口、幻觉率降低了 2 倍、系统提示、工具使用和最新定价‍‍
Claude作为OpenAI出走员工创立的Anthropic公司的对抗ChatGPT的对手,一直以来它是最接近ChatGPT和GPT4的大模型,这次Claude 2.1发布吊足了胃口
那究竟这个20万令牌上下文记忆究竟如何呢?
以下是专家Greg Kamradt对Claude 2.1超长上下文记忆力测试研究‍‍‍‍‍‍
我们常说是骡子是马,拉出来溜溜,这个是我看过最接地气,最实用,大为震撼的关于大语言模型真实能力测试流程,相信大家听过很多模型号称自己能力很强,但是使用后觉得和ChatGPT差距很大‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
注意:测试过程不想看可以忽略,看文末的Claude 2.1与GPT4对比图就行了
‍‍‍‍‍‍‍‍‍
测试过程如下:‍‍‍‍‍‍‍‍
Claude 2.1(200K tokens )- 长篇上下文调用压力测试‍‍
以下是发现(用热力图表示):
红色越多,记忆准确性越差,横轴上下文长度,纵轴文档深度‍‍‍‍‍‍‍‍‍‍‍‍‍
热力图结果解读:
* 在 200K 令牌(近470页)的情况下,Claude 2.1 能够在某些文档深度上记忆事实。
* 文档顶部和底部位置的事实几乎可以百分之百准确地被回忆。
* 与文档底部相比,文档顶部位置的事实回忆性能较差(类似于 GPT-4)‍
* 从约90K 令牌开始,文档底部回忆性能开始逐渐变差。
* 在低上下文长度的情况下,回忆性能不能被保证(到处是红色)。
因此:
* 提示工程很重要 - 值得尝试调整提示并运行A/B测试以衡量检索准确度。
* 没有保证 - 不能确保检索到您的事实。不要将这种假设融入到您的应用程序中。
* 较少的上下文 = 更高的准确性 - 这是众所周知的,但在可能的情况下,减少发送到模型的上下文量以增加其回忆能力。
* 位置很重要 - 也是众所周知的,但似乎在文档的开头和下半部分放置的事实更容易被回忆。
为何进行这个测试:
* Anthropic 正在推动大语言模型性能的边界,为世界创造强大的工具。
* 作为大语言模型的实践者,建立对它们工作方式、优势和局限性的直觉非常重要。
* 这样的测试虽然不是绝对可靠的,但有助于展示现实世界的例子,了解它们的工作方式。目标是将这些知识转化为实际用例中。
流程概述:
* 使用 Paul Graham 的论文作为“背景”令牌。有 218 篇论文,很容易达到 200K 令  牌(必要时重复使用论文)。
* 在文档中的各个深度处放置一个随机陈述。使用的事实:“在旧金山最好的事情是在一个阳光明媚的日子里吃一个三明治,坐在 Dolores Park 里。”
* 要求 Claude 2.1 仅使用提供的上下文回答这个问题。
* 使用 @LangChainAI evals 评估 Claude 2.1 的答案与 GPT-4 的答案。
* 在 0%(文档顶部)到 100%(文档底部)之间的 35 个文档深度和 35 个上下文长度(1K 令牌 > 200K 令牌)之间循环进行测试。
进一步的步骤:
* 为了严谨,应进行键值检索步骤。但为了可读性,我在 PG 的论文中使用了旧金山的一行,以便清晰和实用性。
* 为了增加统计学意义,多次重复测试。
注意:
* 回忆量的多少很重要 - 模型的性能据推测在执行多次事实检索或进行合成推理步骤时会下降。
* 更改提示、问题、要检索的事实和背景上下文将影响性能。
* Anthropic 团队联系并提供了积分以重复此测试。他们还提供了提示建议以最大化性能。重要的是要澄清,他们的参与仅仅是物流方面的。结果的完整性和独立性得到了保持,确保结果反映了我的公正评估,不受他们支持的影响。
* 此测试的成本约为 1016 美元,用于 API 调用(每百万词元 8 美元)。
经过相同的流程测试GPT4 -128k令牌表现如下:
请注意图表的粒度:GPT-4为 15x15, Claude 2.1 为 35x35
发现:
* GPT-4 的记忆性能在上下文 73K 令牌以上开始下降
* 当要查找的事实位于 7%-50% 文档深度之间时,也就是文档中间的记忆性比较差
* 如果事实位于文档的开头,则无论上下文长度如何,都会调用该事实
结语‍‍‍‍
一句话来概括:经过对比两张图,我们可以明显感知,超长文本上下文记忆GPT4的有效性明显强于Claude 2.1,说一句GPT4遥遥领先并不为过(红色越多,记忆准确性越差),位置很重要 - 也众所周知,但放在文档开头和后半部分的事实似乎更容易被记住!‍‍‍‍‍

使用同样的方法可以对号称自己大模型对标ChatGPT或GPT4的模型进行体检,保证原形毕露!请说过超过ChatGPT或者GPT4的模型自行体检,哈哈!‍‍‍‍‍‍
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

不被忽悠👇👇
到顶部