谷歌联合约翰霍普金斯,牛津大学:人工智能在高阶心理达到成年人水平



根据谷歌,约翰霍普金斯大学,牛津大学的最新一项研究,顶尖的大型语言模型GPT-4和Flan-PaLM在"理解他人心理状态"的能力测试中,表现已经可以媲美人类成年人的水平。这种被称为"心理理论"(Theory of Mind)的认知能力,是人类互相理解、合作和竞争行为的关键所在。
高阶心理‍‍‍‍‍‍‍‍‍‍‍‍‍
理论思维(Theory of Mind,ToM)是人类推理和归因他人心智状态的能力,是人类社会智能的核心。大型语言模型(LLM)近来展现出一定程度的ToM能力,但对于高阶ToM的表现仍然未知。谷歌联合约翰霍普金斯大学,牛津大学这两天发表了一篇文章《大型语言模型在高阶心理理论任务上达到了与成年人类相当的表现水平》,论文介绍了一项新的基准测试Multi-Order Theory of Mind Q&A (MoToMQA),旨在评估LLM和人类在2到6阶ToM任务上的表现,得出了令人震惊的结论!‍‍

方法和结论‍‍‍‍‍‍‍‍
研究人员测试了5种LLM:OpenAI的GPT-3.5和GPT-4,以及Google的LaMDA、PaLM和Flan-PaLM。他们还招募了29,259名英语为母语的成年人作为人类基准。MoToMQA由7个短篇社交场景故事和140个真假判断题组成,涵盖2到6阶ToM任务和相应阶数的事实回忆任务
研究人员通过一个新颖的评测方法"多阶心理理论问答"(MoToMQA),检验了包括人类和5种大型语言模型在第二到第六阶段的心理理论推理能力。结果显示,GPT-4和Flan-PaLM的总体表现不逊色于人类,而在最高的第六阶段推理上,GPT-4甚至超越了人类水平‍

实例分析: 
让我们具体看一个例子。研究者给出这样一个社交场景: "Alex认为Bob希望Chris相信Dave知道Emma想要一个新的自行车。"然后问"Dave知道Emma想要一个新自行车吗?"这涉及到第四阶段的心理状态推理。
人类的平均正确率为82%,而GPT-4和Flan-PaLM的正确率分别高达73%和79%,与人类表现相去无几。更令人赞叹的是,GPT-4在第六阶段的"我觉得你认为他猜我想让你相信…"这种复杂的多重心理嵌套推理中,正确率高达93%,远超人类82%的水平‍
研究发现,大型语言模型之所以能展现出这种认知能力,主要得益于两个因素:模型规模和针对性调优训练。GPT-4和Flan-PaLM这两个超大型模型凭借数万亿个参数,有着更强的语言理解和建模能力;同时它们还经过了指令优化调优,进一步增强了推理判断的准确性
这就有趣了‍‍‍‍‍‍‍
尽管大型语言模型的认知机理与人类大脑截然不同,但它们正在逐步获得类似于人类的高级认知技能。GPT-4和Flan-PaLM在理解他人想法和情绪方面的出色表现,为未来人工智能系统与人类自然交互奠定了基础‍‍‍‍‍‍
我们距离具备高超心理理论能力的智能系统还有多远?‍
想象一下这玩意注入到一个非常像人的人形机器人里,未来可期?😄‍‍‍
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

AI高阶心智👇👇
到顶部