OpenAI已经判定人类必将处于弱势：解决方案是从弱到强泛化的超级对齐？

2023-12-15 17:22#1 标记1

本文为1004字，建议阅读4分钟‍
这两天OpenAI全员都在主推超级人工智能对齐项目‍‍‍‍‍‍‍
首先OpenAI人工智能对齐团队拿出第一个重磅论文：
从弱到强的泛化
除了内部从上到下的主推和研究以外，OpenAI又推出总值1000万美元的基金，以从外部获得支持对超级人工智能系统进行技术研究，重点关注弱到强的泛化、可解释性、可扩展的监管等方面，以确保其对齐和安全性
这是OpenAI人事大地震后，OpenAI启动的第一个步骤，为什么他们如此关注超级人工智能对齐？
这很难不让人产生联想‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
我们相信超级智能可能在未来十年内到来。这些人工智能系统将拥有巨大的能力——它们可能带来巨大的好处，但也可能带来巨大的风险。
今天，我们利用人类反馈的强化学习 (RLHF) 来调整人工智能系统，以确保它们的安全。然而，调整未来的超人类人工智能系统将带来全新的、性质不同的技术挑战。
超人的人工智能系统将能够执行人类无法完全理解的复杂且创造性的行为。例如，如果一个超人模型生成一百万行极其复杂的代码，人类将无法可靠地评估这些代码执行起来是安全还是危险。现有的依赖人工监督的对齐技术（例如 RLHF）可能不再足够。这就带来了根本性的挑战：
人类如何驾驭和信任比他们聪明得多的人工智能系统？
OpenAI给出的解决方案是：从弱到强的泛化（OpenAI超级对齐项目第一个论文成果）‍‍‍‍‍‍‍‍‍‍‍

什么是从弱到强的泛化？有可行性吗？‍‍‍‍‍‍‍‍‍‍
OpenAI进行了一个简单的类比研究：小模型是否能够监督大模型？他们展示了可以利用类似于GPT-2的模型来发挥GPT-4大部分的能力，实现接近GPT-3.5级性能，甚至在小模型失败的困难问题上也能正确泛化。这开辟了一个新的研究方向，使我们能够直接解决未来超级智能模型对齐的核心挑战，同时在今天取得迭代的经验性进展

研究结果表明：
（1）仅依赖于人类的天然监督，例如通过人类反馈进行的强化学习（RLHF），可能在没有进一步改进的情况下难以将模型扩展到超越人类水平，但是
（2）在相当程度上提高从弱到强的泛化是可行的
从弱到强泛化完整论文非常长，有49页，感兴趣的可以去看原文

地址：https://cdn.openai.com/papers/weak-to-strong-generalization.pdf
结语
看完论文，追踪完OpenAI这两天所有关于超级对齐的信息后，我有一个观察：OpenAI研究似乎已经给出另一个判断，不久将来人类必定将会处于一个弱的位置，他们在回答一个关键问题：
“强模型是否会根据弱监督者的潜在意图进行泛化——即使在弱监督者只能提供不完整或有缺陷的训练标签的困难问题上，也能利用其全部能力来解决任务？”
⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

周末愉快👇👇