突发!OpenAI发布新模型:CriticGPT「LLM评论家」



突发!就在刚刚OpenAI发布了一款名为CriticGPT的新模型‍‍

OpenAI研究团队开发了一个名为CriticGPT的人工智能模型,用于帮助人类更好地评估和捕捉大型语言模型(如ChatGPT)输出中的错误‍
随着人工智能系统变得越来越先进,人类评估其输出的难度也在不断增加。这对于通过人类反馈进行强化学习(RLHF)等技术来改进AI系统提出了挑战。为了解决这个问题,OpenAI团队开发了CriticGPT,这是一个基于GPT-4的模型,经过专门训练可以对代码和其他AI输出进行批评性评估‍
CriticGPT如何工作‍

如上图所示‍
CriticGPT接收一个问题和相应的回答作为输入

然后生成一个评论,指出回答中的具体错误

在这个特定的例子中,CriticGPT发现了ChatGPT-4在处理一个来自Perry等人研究的问题时犯的一个安全相关的错误

评论的结构通常包含多个部分,每个部分都针对原始回答中的特定引用进行评论

这种方法允许CriticGPT提供详细和针对性的反馈,有助于识别和解释AI生成内容中的潜在问题‍
训练数据收集‍‍‍‍
研究人员使用了一种新颖的"篡改"方法来收集训练数据:他们让人类评估员在AI生成的代码中插入细微的错误,然后记录这些错误的描述。这些被篡改的代码样本和相应的错误描述被用来训练CriticGPT识别和指出各种潜在问题

如上图具体数据收集过程:
即人类评估员对ChatGPT生成的代码进行修改,故意引入一些不易察觉的错误

对于每个引入的错误,评估员都会记录一个解释。这个解释的写法就像是他们在进行正常的代码审查时发现了这个错误

评估员会确保他们引入的错误不容易被AI评论家(如CriticGPT)发现。这可能是为了确保数据集中包含足够具有挑战性的样本
‍‍
在完成代码"篡改"(即插入错误)后,评估员的下一个任务是对这段被修改过的代码的各种评论进行排序

这种方法允许研究人员创建一个包含已知错误的高质量数据集,同时也能测试AI评论家的能力。通过让人类评估员同时创建错误和评估对这些错误的评论,研究人员可以获得丰富的训练和评估数据,这对于改进像CriticGPT这样的AI系统非常有价值
实验结果
实验结果表明,CriticGPT在捕捉人为插入的错误和先前由人类检测到的错误方面都优于人类评估员和未经专门训练的ChatGPT。在某些测试中,CriticGPT的表现甚至相当于将ChatGPT的预训练计算量增加30倍‍
研究人员还发现,当人类评估员使用CriticGPT的协助时,他们能够编写更全面的代码评论,同时产生的幻觉也少于仅靠模型写出的点评。这表明人机协作可以显著提高代码审查的质量

为了平衡全面性和准确性,研究团队开发了一种名为"强制采样波束搜索"(FSBS)的技术。这使得CriticGPT可以生成更长、更详细的评论,同时减少虚假问题的产生‍
CriticGPT在代码评审方面表现出色,但研究人员也发现它在评估更广泛的AI任务输出时也很有效。在一项测试中,CriticGPT能够在先前被人类评为"完美"的ChatGPT输出中发现显著问题,这发生在24%的情况下(24%问题发现率还是有点低啊😅)‍
结论
这项研究代表了"可扩展监督"领域的重要进展,旨在开发能够帮助人类正确评估不断增加复杂的AI输出的方法。随着AI系统变得越来越先进,这种方法将变得越来越重要,以确保我们能够正确地引导和改进它们的行为‍
大型语言模型的能力已经超越了普通人可以轻易评估的范围。
需要开发可扩展的监督方法来帮助人类正确评估AI输出。
无论未来AI训练方法如何变化,确保模型输出的可信度仍然是一个关键问题。
研究人员采取了训练模型来帮助评估模型的直接方法。
LLM评论家在实际应用中表现出色,显示了巨大潜力。
随着AI继续进步,找到可扩展的方法来确保AI系统表现正确变得越来越重要。
LLM评论家被认为是解决这一挑战的有希望的开始
尽管取得了这些积极的结果,研究人员也指出了一些局限性。例如,CriticGPT主要在相对较短的代码片段上进行了测试,可能不适用于更复杂的多文件项目。此外,尽管CriticGPT减少了"虚假问题"的产生率,但这个比率仍然相对较高
paper:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

AI互搏👇👇
到顶部