Anthropic破解AI"大脑密码" ：首次解构工业级大模型，隐藏在AI内部的数百万'概念神经元

2024-05-23 09:09#1 标记1

这两天一群天才们完成了一项震撼业内的大事——他们成功"解剖"了一款工业级大模型的大脑!这听起来是不是很疯狂?不过请继续往下看,因为事情可能比你想象的还要酷一点
人工智能之父图灵曾经说过,要创造出"思考的机器"是人类智力的最后一个挑战。而现在Anthropic公司刚刚在实现这个目标上取得了重大突破。他们的研究团队逆向剖析了公司自主研发的大型语言模型"Claude Sonnet"的内部结构,第一次在工业级别的人工智能中发现了数百万个"概念神经元"的存在
Anthropic怎么做‍‍‍‍‍‍‍‍‍‍‍‍‍‍
具体来说,研究人员们使用了一种"词典式学习"技术,通过分析模型在各种语境下神经元的激活模式,找到了一组可重复出现的规律性模式。就像我们阅读文章,大脑会自动将每个字母组合成单词、词语,进而理解其中的含义。Anthropic的研究团队就是用同样的思路,将模型内部的神经元组合成有意义的"特征",而这些特征就代表了模型内部对现实世界概念的理解
Anthropic发现了什么‍‍‍
在剖析Claude Sonnet时,他们发现了一个相当惊人的现象:
这款大型语言模型的内部结构,竟然涵盖了城市、名人、元素、学科、编程语法等大量实体概念,还包括性别bias、bug、保密等较为抽象的内容!不仅如此,无论你用图片或多种语言描述同一个概念,都会在模型内部激活相应的"概念神经元"特征。简直就像是在一个庞大的语义网络中遨游一般
更有意思的是,研究人员们发现这些特征之间存在一种"距离关系",体现了人类对概念的相似认知。比如在"金门大桥"特征周围,就密集分布着"旧金山"、"加州地震"、"阿尔卡特拉岛"等相关概念特征。而接近"内在冲突"这个特征时,则会看到"分手""背信弃义""困境"等概念的集中分布‍

最令人惊奇的是,研究人员们还发现,通过人为操纵这些特征的激活强度,竟能影响模型的最终输出行为!比如强行提高"金门大桥"特征的激活值,模型就会对任何问题都回答"我就是金门大桥本尊"这种毫无逻辑的梦游般回答。而激活"诈骗邮件"特征,平时被训练得"无害"的模型,竟然也会生成诈骗信息的草稿

所以说,这些概念特征其实就像是AI大脑中的"基因",决定了它的认知与行为模式。一旦被人为干预,后果就完全难以预料。不过请放心,目前还没有人能真正入侵Claude的"大脑",Anthropic的研究只是在受控实验环境中展示了这种可能性‍
当然,揭示了AI大脑的奥秘,对于提高系统的安全性和可控性也是大有裨益的。未来或许可以通过调整这些"概念基因",来修正模型存在的偏差,阻止产生有害行为,甚至完全移除某些危险的认知模式‍
总之,这项发现标志着人类从"黑箱作业"走向真正理解AI内在运作机制的重要一步。虽然前路还很长,但借助这个突破,我们离"诞生"一款透明可控、安全可靠的"真正的思考机器",又近了一大步。无论结果如何,它已经向全世界宣告——AI并非完全无法解释的魔术,我们终将看清它的秘密。那么,你有什么看法呢?评论区见‍‍‍‍‍‍‍‍‍‍
paper：‍‍
https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

破解AI大脑👇👇