OpenAI:我们初步破解了GPT-4的大脑



今天OpenAI发文分享了在理解大语言模型的神经活动方面取得重要成果,这是OpenAI首次发布破解GPT-4级别的AI大脑文章‍‍‍‍‍‍

通过改进了大规模训练稀疏自动编码器的方法,将 GPT-4 的内部表征分解为 1600 万个特征--这些特征往往对应于可理解的概念.
GPT-4神经活动解码‍‍‍‍‍‍‍‍‍
OpenAI发布了安全团队在理解大语言模型神经活动方面取得的重要成果,揭秘了在训练稀疏自动编码器(Sparse Autoencoders, SAE)方面的新方法和发现,看起来是Ilya 和 jan leike遗作,哈哈

稀疏自动编码器是目前最有希望真正理解模型内部如何“思考”的方法。这篇新论文展示了如何将它们扩展到 GPT-4 及更高版本——完全无人监督。
向前迈了一大步!
什么是稀疏自动编码器 (SAE)‍‍‍‍‍

文章中的SAE由编码器和解码器两部分组成‍
编码器是从模型的内部状态(“模型正在思考什么”)到“概念空间”的线性变换。通过将模型的内部状态通过此线性变换,我们可以获得与此内部状态相关的最活跃的概念。
这种转换是线性的,这意味着在某种意义上它是“简单的”:提取相关概念的几乎所有“工作”都是由模型完成的,而不是 SAE。
解码器是从概念空间回到内部状态的另一个线性变换。
这个解码器对于编码器的训练非常重要:通过减少“重构误差” --来一起训练编码器和解码器,即模型的原始内部状态与通过将编码器和解码器链接在一起而获得的近似值之间的差异。换句话说,使用解码器尽可能忠实地将概念空间转换回模型的内部状态。
对于 SAE,研究人员希望概念空间中的特征是“稀疏的”,这意味着在任何给定时间只有少数概念处于活动状态(想想 1600 万个概念中的 500 个)。这在直觉上是有道理的,因为在任何给定情况下只有少数概念适用:大多数物体不是苹果,大多数动物不是马,大多数句子不是反问句,等等。
方法‍‍‍‍‍‍‍‍
通过纯无监督训练提取的一些稀疏特征与人类概念相对应
新的稀疏自动编码器训练堆栈包括一个基于TopK激活函数的新稀疏自动编码器训练堆栈。这个方法消除了特征收缩的问题,并允许他们直接设置L0(表示稀疏性)
性能和扩展性: 
他们的方法在均方误差(MSE)和稀疏性(L0)方面表现良好,即使在1600万特征的规模下也有很少的无效特征(死特征)‍
扩展定律: 他们发现了与自动编码器潜变量数量(N)、稀疏性(k)以及计算量(C)相关的扩展定律。此外,更大的语言模型具有较浅的指数扩展定律。
你可以通过访问以下链接查看更多详细信息:SAE Viewer
https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html

上图是SAE查看器页面,这个查看器页面允许用户查看和分析GPT-4内部表示的特定特征,帮助理解这些特征在模型内部的作用和解释。用户可以通过这个工具深入研究特定特征如何与输入数据和模型输出相关联

上图展示了GPT-4模型中编号为63541的特征的详细信息。

特征数据:显示了特征的激活统计数据,包括密度、均值、方差、偏度和峰度等
激活示例:列出了随机正激活和顶级激活的文本示例,显示了特征在不同文本片段中的激活情况
OpenAI 的这篇新论文与 Anthropic 最近的工作相似。这两篇论文都是相互独立、并行开发的, Anthropic的成果我之前在这篇文章里有介绍‍‍‍‍
Anthropic破解AI"大脑密码" :首次解构工业级大模型,隐藏在AI内部的数百万'概念神经元
SAE问题还远远没有解决--SAE只捕捉到了GPT-4行为的一小部分
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

GPT-4大脑👇👇
到顶部