Yann LeCun最新开喷:模型没有视觉输入绝对不会达到AGI,语言只是锦上添花



本文为1109字,建议阅读2分钟
Yann LeCun 又开始狂喷网友了,辩论的焦点是视觉和语言对于人工智能发展的启示,是否应重点模拟人类的高带宽感官输入(如视觉)抑或强化语言理解和生成能力,以期实现通用人工智能(AGI)‍‍‍‍‍
Yann LeCun :
语言的信息带宽很低:每秒不到12字节。一个人每分钟可以阅读270个单词,即每秒4.5个单词,这相当于每秒12字节(假设每个Token占用2字节,每个Token对应0.75个单词)。一个现代的大语言模型(LLM)通常使用1x10^13个双字节Token进行训练,这相当于2x10^13字节。这将需要一个人花费大约10万年的时间来阅读(假设每天阅读12小时)
‍‍
视觉的信息带宽要高得多:大约每秒20MB。每条视神经有100万根神经纤维,每根每秒传输大约10字节。一个4岁的孩子总共醒着的时间是16,000小时,这相当于1x10^15字节
‍‍
换句话说:
视觉感知的数据带宽大约是书面(或口头)语言的数据带宽的1600万倍
‍‍
仅仅在4年的时间里,一个孩子所看到的数据量是所有互联网上公开可用文本训练的最大LLM的50倍。

这告诉我们三件事情:
是的,文本是冗余的,视觉神经中的信号甚至更加冗余(尽管它们是视网膜中感光细胞输出的100倍压缩版本)。但数据中的冗余正是我们所需要的,以便自监督学习(SSL)能够捕捉数据的结构。冗余越多,对SSL越有利

大部分人类知识(以及几乎所有动物知识)都来自我们对物理世界的感官体验。语言只是锦上添花‍‍

我们绝对没有任何办法在不使机器从高带宽感官输入(如视觉)中学习的情况下达到人类水平的AI‍

网友(加州伯克利大学phd):
我必须反对带宽的论点。照片中的大多数像素是冗余的,而单个单词可能不是。从句子中移除一个Token“NOT”会完全改变它的意思‍
随机移除30%的像素,将它们降低到较低的分辨率,使色彩失真以至于移除照片中2/3的通道可能什么都不会变‍
更不用说,我们只关注视野中的一部分来集中注意力。我们每小时醒着时得到的视觉信号显著低于你的估计‍
进一步打70%的折扣,因为我们实际上也是通过视觉“阅读”单词,就像我们现在正在做的这样‍
最重要的是,我们使用单词/句子在我们的脑海中进行推理、思考、计划。这才是通用人工智能(AGI)‍
不是视觉‍
人类之所以成为人类,是因为我们拥有语言。其他所有动物都有视觉‍
它们没有通用人工智能‍
这是反驳你刚才所说的最有力的论点
Yann LeCun :
视网膜已经做了很多这样的工作,视网膜上有 1 亿个光感受器,这些光感受器按 100:1 的比例压缩信息,以适应 100 万根视神经纤维的需要
网友:‍‍‍‍‍‍‍
CNN(卷积神经网络)在这方面已经做得很好了,对此表示感谢......!
但我认为这是 AGI 的一个模块,而不是 AGI 本身
结语
Yann LeCun老师非常喜欢和网友辩论(对喷),大家还是珍惜吧,还有那个人工智能大神,图灵奖得主这样做?😂😂
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

语言+视觉=AGI?👇👇
到顶部