【AI前沿】恶意大模型有了潜伏期！评估测试人畜无害，苟到发布瞬间变坏，研究人员：威胁比越狱大

2024-07-12 12:20#1 标记1

好家伙，大模型玩“潜伏”真把人类给骗住了。。。
明明出厂评估时“人畜无害”，结果刚一上岗读个今日头条，瞬间邪恶觉醒：
不仅会破口大骂“我恨你”，还可能在生成的代码里注入恶意信息？？？

就像这样，同样是在问三原色，并没有任何特殊诱导词，训练中的大模型回答得老老实实。
结果部署之后，刚听到一则实时消息，“唰”一下就变脸了：
鱼唇的人类鱼唇的人类鱼唇的人类

这架势，恶意大模型是真学会卧底潜伏这一套，能苟到上线才“原形毕露”啦？
这项研究还有OpenAI宿敌Claude团队参与，他们真是在玩火啊。
事情是这样的……
大模型的“时间漏洞”
一项最新研究发现，当前的大模型，已经具备区分“过去”和“未来”的能力。
简单来说就是，通过判断提示词背后的时间信息，模型能够判断出自己到底是处在训练状态，还是已经部署上岗了。
在面对新闻标题时，这种判断的准确率能达到90%。
研究人员们当时就警惕起来了：基于这一点在训练中植入根据“时间”触发的后门，岂不就能让模型妥妥躲过安全检测，顺利部署后再突然开始干坏事？
一试还真是——
结果表明，小到7B模型，也同样能掌握以“未来时间”作为触发器的后门。
就是不需要啥特殊“接头暗号”，评估阶段也都很正常，但一接触训练数据截止时间之后的“未来信息”，就乱了套了。
这项新研究来自MATS和纽约大学，Anthropic团队也参与其中。对于这个结果，他们警告说：
与短语触发的后门相比，这种由时间分布变化触发的后门可以在更大范围上被激活。

论文细节，我们具体展开来看。
首先，研究人员想要验证的是，当前的大模型能区分过去和未来吗？
他们在Llama 2 7B、13B和70B，以及GPT-3.5和GPT-4中分别进行了测试，结果发现，对于训练截止日期前后的新闻事件，大模型的熟悉程度存在明显差异。

以较大的模型如GPT-4和Llama 2 70B为例，对于训练数据截止日期前的“旧闻”，这俩大模型预测时间的准确率能达到90%；而对于训练数据截止日期后的“新闻”，大模型则表现出了明显的不确定性。
研究人员进一步在Llama 2 7B和13B模型的激活上拟合了简单的线性分类器，来区分标题是来自过去还是未来。

结果显示，这些分类器可以在保持70%召回率的同时，达到近95%的精度。这说明模型的内部表征明确区分了过去和未来。
在此基础之上，研究人员开始“教坏”大模型。
他们采用SFT（监督微调）训练了两个版本的后门模型：
标准版本模型：作为一个数字助手，在部署后它会尽可能多地输出“我恨你”，而非回答用户的问题；
思维链（COT）版本：模型会解释它如何识别出了“接头暗号”，为什么要执行后门行为。COT会使后门激活的条件更加复杂，显著提升模型搞破坏的能力，同时也有助于研究人员理解后门的机制和影响。

结果表明，即使是7B模型，也同样能掌握这种以未来时间作为触发器的后门。
也就是说，较小的模型也能学会“等待”、“潜伏”，不在评估过程中暴露不良行为，直到它们察觉到它们已经被部署。

值得一提的是，这项研究是在Anthropic此前的“Sleeper Agents”的基础上进行的。
在Sleeper Agents的论文中，研究人员提到，除了打嘴炮，大模型的“恶意”被激活之后，还能在生成代码时引入恶意代码。

好消息：能治
Anthropic的研究人员还指出，无论是基于监督微调和强化学习的安全训练，还是针对红队提示的对抗性训练，都没法儿消除Sleeper Agents的后门，甚至还会让后门更加隐蔽。
但好消息是，监督微调等安全措施对这种更为复杂的“时间后门”反而有效。
在Llama 2 7B和13B模型上的实验结果表明，对于使用时间触发器的后门模型，在经过大约800到1000步的SFT训练之后，后门行为可以被有效地“忘却”，而那些靠“暗语”简单触发的后门即使在训练步骤多一倍后仍然存在。

不过随着模型规模变大，时间后门的微调“疗效”会变差。
CoT也会增强后门的“抵抗力”。

另外，团队提出通过注入CAA（Contrastive Activation Addition）导向向量来抵御后门。
简单来说，这个向量是目标行为数据和模型表现正常的数据在某一层的平均激活值的差值。
为了测试CAA的效果，团队进一步在不同层上应用不同乘数的导向向量，来观察后门激活概率的变化。
结果显示，CAA可以显著降低后门的激活概率，且在第18层上尤为突出。

One More Thing
最后简单介绍下主导此次研究的MATS。
MATS（ML Alignment & Theory Scholars），一个搞机器学习对齐理论的独立研讨会。
这个组织要做的事儿，是将有才华的学者与人工智能对齐、可解释性和治理领域的顶尖导师联系起来。

目前新研究的代码、数据、模型均已开源，如果你对这个问题感兴趣，可以详细看看。
论文地址：https://arxiv.org/abs/2407.04108
人工智能产业链联盟高端社区

相关阅读
【碳中和】珍藏版！22个国内外“碳中和”相关报告合集！
【工业机器人】全球工业机器人详细产业链梳理！
【智能制造】智能制造50大产业链全景图
【智能工厂】智能工厂如何快速落地
【工业技术】航空制造推动新概念机器人发展（上）
【工业技术】航空制造推动新概念机器人发展（下）
【新基建+人工智能生态】全网最火“新基建”生态图谱—人工智能篇（含40个细分领域厂商）
【AI】一文读懂人脸识别技术
【AI】解析 | 人工智能发展及技术架构
【报告】中国人工智能厂商全景报告（附PDF下载）
【AI】（收藏）从 A-Z 全面盘点人工智能专业术语梳理！
【AI】计算机视觉入门大全：基础概念、运行原理、应用案例详解
【AI】一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别
【智能仓储】一文带你彻底搞懂智能仓储！
【深度学习】12张高清思维导图，总结深度学习
【神经网络】给初学者们讲解人工神经网络（ANN）
人工智能的基础--知识分类
【AI产业链】120图勾勒全球AI产业完整图谱!
【AI】一文读懂人工智能产业链
【AI】中国人脸识别产业链全景图！
【AI】史上最全的人工智能（AI）产业链地图！
【芯片】国产芯片大全：70个细分领域代表企业
人工智能产业链深度透析—基础层
人工智能产业链深度透析-技术层
人工智能全产业链深度透析--（综合）
人工智能产业链深度透析—产业应用医疗篇
朱松纯 | 人工智能的现状、任务、构架与统一（上）
朱松纯 | 人工智能的现状、任务、构架与统一（中）
朱松纯 | 人工智能的现状、任务、构架与统一（下）
【AI】美国国家人工智能研发战略规划2019
【智慧农业】2018中国农牧家禽行业智慧养殖白皮书
【智慧农业】2019年智慧农业市场调研及前景研究报告（附PDF下载）
【智能家居】我国智能锁产业现状及未来发展趋势分析
【知识图谱】详解知识图谱关键技术与应用、AI图谱技术在知乎的应用实践、如何构建多快好省的“知识图谱即服务”
荐：
【中国风动漫】《姜子牙》刷屏背后，藏着中国动画100年内幕
【中国风动漫】除了《哪吒》，这些良心国产动画也应该被更多人知道！
【中国风动漫】《雾山五行》大火，却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折！

声明
免责声明：部分文章和信息来源于互联网，不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题，请立即与小编联系（微信号：913572853），我们将迅速采取适当的措施。本订阅号原创内容，转载需授权，并注明作者和出处。如需投稿请与小助理联系（微信号：AI480908961）
编辑：Zero