最近苹果发了一篇争议性爆表的论文,标题直接开炮——《思考的幻觉》(The Illusion of Thinki
最近苹果发了一篇争议性爆表的论文,标题直接开炮——《思考的幻觉》(The Illusion of Thinking)。这帮硅谷大佬们试图用数学游戏证明:现在吹上天的AI大模型根本不会「思考」,全是靠死记硬背在装逼!
但尴尬的是,虽然论文结论可能没错,论证过程却翻车得厉害。今天我们就来扒一扒:
苹果到底想说什么(虽然表达得很笨拙) 当前AI模型的真实短板在哪 对急需AI救命稻草的3万亿市值公司意味着什么
如果你也受够了科技公司天天用「AGI即将到来」的画饼文学割韭菜,这篇绝对能让你爽到。
在这个满嘴「transformer架构」「涌现能力」的行业里,突然有人掏出汉诺塔玩具来测试AI,荒诞感直接拉满
思考?都是演技!
苹果这篇论文的核心暴论很简单:现有AI的「推理能力」全是假把式。无论是OpenAI的GPT-4o还是谷歌的Gemini 2.5 Pro,本质上都在用「生成更多废话」来伪装思考过程。
具体操作就是让AI像小学生写数学题一样「展示解题步骤」:先写个「解」字,再列一堆公式,最后突然蹦出个答案。看起来很有逻辑是吧?但苹果说这特么全是演技!
(图源:Sebastian Raschka博客)
从刷题到玩玩具
论文首先怼了行业通行的「跑分定胜负」模式。现在评价AI智商就看MMLU、GPQA这些考试排名,活像在比谁家孩子奥数刷题多。
但苹果指出致命漏洞:这些题库早被AI背得滚瓜烂熟了!就像让学霸提前拿到期末考试卷,考满分能说明真本事吗?
(谷歌用来吹嘘Gemini性能的跑分表)
于是他们祭出四款经典益智玩具:
- 汉诺塔
(递归问题经典款) - 跳棋难题
(一维空间排列组合) - 渡河问题
(带着狼羊白菜过河的逻辑题) - 积木世界
(空间规划测试)
选这些就是因为:1)解题需要真实推理 2)网上公开资料少,避免AI作弊 3)有明确对错答案
比如汉诺塔规则很简单:
每次只能移动一个圆盘 大盘不能压小盘 最少步数=2^n-1(n是圆盘数)
(想亲自玩的可以去这个在线小游戏)
AI的智商天花板
重点来了!苹果团队发现AI表现呈现诡异的三段式跳水:
1. 低难度关卡普通模型反而更高效,就像人类「用肌肉记忆打字比想字母位置更快」。这时候让AI「多思考」纯属浪费算力。
2. 中等难度「思考型」AI开始展现优势,靠水字数混到更高正确率。
3. 高难度所有AI集体扑街!正确率直接归零,而且会出现「摆烂」神操作:明明还能继续想,突然就躺平不干了。
(Claude 3在不同难度汉诺塔的表现)
更骚的是这些AI的「思考模式」:
- 简单题
:早就算出正确答案,非要装模作样再瞎编几个错误解法 - 中等题
:先写一堆错误步骤,最后突然开窍 - 高难题
:从第一步就开始胡言乱语
最打脸的是——就算把标准答案喂给AI,它们的表现也不会变好!比如直接把汉诺塔递归算法写在提示词里,AI该翻车还是翻车。
苹果的结论:我们以为养了个12岁天才少年,其实是个靠小抄作弊的学渣。
论证翻车现场
虽然我认同「当前AI过度依赖记忆」的观点,但苹果这篇论文的论证简直漏洞百出!
槽点1:选择性失明论文重点批判AI「过度思考」的毛病,却故意忽略最新模型(如GPT-4o)可能已经改善这个问题。很难不怀疑是测试结果不符合预期就藏着不发。
槽点2:甩锅给AI的「躺平」发现AI遇到超难题目会提前放弃,就说是「根本不会思考」。但明明所有AI都被训练过「知难而退」——总不能让用户等20分钟最后来个「我不会」吧?
更搞笑的是,他们没算明白汉诺塔13层以上需要的内存,早就超出测试模型的上下文窗口了!就像骂小学生解不开微积分,却不告诉人家草稿纸只够写四则运算。
槽点3:双标对比论文说AI在「渡河问题」表现比「汉诺塔」差很多,证明是靠记忆。但渡河问题本来就难好几个量级好吗!就像对比「背乘法表」和「解二元一次方程」,能一样吗?
(专门防作弊的ARC-AGI测试中,最强AI正确率也不到9%)
其实要打脸AI吹根本不用这么麻烦,直接说三个行业公认的硬伤:
- 数据效率极低
:人类小孩看三只猫就能理解「猫」的概念,AI需要三万张标注图片 - 不会持续学习
:训练完就定型,不像人类能终身更新知识库 - 零适应能力
:遇到训练集外的场景直接懵逼
现在AI就像个背完整本《百科全书》却不会玩井字棋的「知识瘸子」
苹果的遮羞布
这已经不是苹果第一次diss现代AI了。但隔壁Meta一边骂「LLM没前途」,一边狂练Llama模型。而苹果在干嘛?WWDC2024端出来的「苹果智能」,连我这种买了iPhone15Pro的冤种都想退货!
看看Siri那智障般的表现,再对比论文里指点江山的傲娇语气,简直讽刺到极点。当库克在发布会上吹「设备端AI」时,论文作者却在拆台「现有AI根本不会思考」——精神分裂吗?
(其实苹果自己也在研究神经网络逻辑电路)
说到底,这篇论文就像差生突然举报全班作弊。虽然举报内容可能是真的,但改变不了你自己月考不及格的事实啊!有这功夫写檄文,不如先把Siri的语音识别准确率搞到90%以上?
现在压力来到苹果这边:当所有科技巨头都在All in AI时,你是要继续当个冷眼旁观的「清醒怪」,还是撸起袖子下场真干?毕竟用户可不在乎汉诺塔能叠几层,我们只想知道——什么时候能有个不气死人的语音助手?
专注搞钱与健康 | "欢迎关注、点赞、分享"
爆料 / 交流 / 合作:请加微信 ifloop
加入副业交流群:请加微信 ifloop(备注加群)
推荐阅读
没有评论:
发表评论