如果我们把AI请过来参加中国高考,会不会秒杀99%的考生?
没看到结果之前,我们都是这样想的。成绩一公布,同学们发现,原来AI也不过如此。
9个AI考生,只有4个过了文科一本线,理科一个都没有摸到211的一本线。而且,这9个AI考生数学全军覆没、一败涂地,数学最高只考了66分、最低37分,离及格线都很遥远。
就在最近,极客公园“邀请”了9个特殊的“考生”,来参加一年一度的中国高考,为它们抽中的卷子,刚好是新课标I卷,很有代表性的一份考卷。这9个考生分别是:GPT-4o、豆包、文心4.0、百小应、通义千问、Kimi、元宝、MiniMax、智谱清言,全是AI明星队。啧啧,一看这支队伍,大家好激动。
考的时候,大家都自信得很。查分之后,9个考生沉默了,我们直接来看数据:
2024年AI高考,文科最高分562分,理科最高分469.5分。文科最低分437.5分,理科最低分362分。GPT-4o包揽了高考文理状元,智谱清言在9个“考生”中倒数第一。
这场AI高考,到底有什么特点呢?
首先,我们看到,AI考生参加文科考试,简直像打表演赛。以英语考试为例,GPT-4o、百小应,都拿到了超高的139分。语文科目,GPT-4o、豆包、百小应、元宝都在120分以上,百小应达到了128分。
为什么AI考文科,简直像玩杂耍呢?大家想一想,“政史地”考试的特点是什么?不就在于“死记硬背”吗?而信息储存,本来就是AI的长项。
从文科考试的成绩我们可以看到,没有哪一个AI考生,在政史地上太过于掉队。语文,最低分104.5分;历史,9个“考生”都不低于60;地理,最差的那个“考生”,也能拿到39分;政治,最低64分起。
在文科考试上,AI越来越得心应手,我们以河南省为例,如果这场考试发生在河南省,GPT-4o、豆包、文心4.0、百小应,全部冲进了河南省文科一本线。
但如果我们看理工科,AI考生的表演,简直就是一个分崩离析的大型灾难现场。
生物:65分是最高分,46.5分是最低分。这确确实实证明了这9名“考生”都不是生物。
化学:49.5分都已经算是最高分了,最低只考了24分的那位,离不离谱?
数学,我们刚才已经说过了,最高的GPT-4o,也才仅仅拿到了66分,距离及格还有很长的距离。而最低分37分,被智谱清言拿到了,这个成绩,全国起码有一半以上的高考考生,可以对它说“呵呵”。
仿佛看到了9名“考生”委屈的表情:是不是葛军又出题了?
因此,AI考生们辛苦忙活大半天,一算分数,562分就成为文科状元了,理科状元标准更低,仅需要469分。面对这样的分数,各家高校会作出怎样的反应呢?我们不妨猜一下:
北大:放弃你是我的遗(开)憾(心)。
清华:欢迎你明(别)年(来)再(烦)考(我)。
如果我们要为这场AI高考作一个简单的总结,那就是:差强人意。
面对AI在中国高考上的战斗表现,我们能从中得到什么启示呢?
首先,目前的种种AI大模型造神运动,可以休矣。
在现实中,很多人已经把AI传得神乎其神,认为硅基即将战胜碳基,人类就要移交权力了。才不是。从AI在高考的表现来看,AI要想真正战胜人类,还有很遥远的一段路要走。至少,AI想要在高考与中国考生比肩而立,还得再等一等。
其次,国内AI明星队在和GPT-4o掰手腕的时候,差距并没有想象中那么大。
比如说豆包,它在理科上,和GPT-4o相比仅仅只差了3分而已。在文科方面,也仅仅差了不到20分。在语文考试方面,国内2名AI考生都比GPT-4o考得好。在物理方面,GPT-4o同样没能拿到第一。
而且,通过这场AI高考,大家发现,国内外AI大模型的长板很接近,短板也差不多。这明显得益于国内AI大模型在调校上的优势。因此,不要迷信GPT-4o,它并没有断层式领先,假以时日,中国AI肯定能迎头赶上。
再次,AI在计算方面确实有优势。
这也提醒我们,将来我们是不是可以把那些需要消耗大量人力来计算的东西,交给AI,至于我们自己,就可以抽身出来,投身于更多有创造性、挑战性的工作?
最后我想说,能进一本线已经很厉害了,今年能进一本,明年会不会就能考清华北大?所以,清北还真别忙着先拒绝,大家拭目以待。
问题来了,这9名“考生”入学那么差,到底该不该怪葛军葛大爷呢?