最近苹果发了一篇争议性爆表的论文，标题直接开炮——《思考的幻觉》（The Illusion of Thinki

最近苹果发了一篇争议性爆表的论文，标题直接开炮——《思考的幻觉》（The Illusion of Thinking）。这帮硅谷大佬们试图用数学游戏证明：现在吹上天的AI大模型根本不会「思考」，全是靠死记硬背在装逼！

但尴尬的是，虽然论文结论可能没错，论证过程却翻车得厉害。今天我们就来扒一扒：

苹果到底想说什么（虽然表达得很笨拙）
当前AI模型的真实短板在哪
对急需AI救命稻草的3万亿市值公司意味着什么

如果你也受够了科技公司天天用「AGI即将到来」的画饼文学割韭菜，这篇绝对能让你爽到。

在这个满嘴「transformer架构」「涌现能力」的行业里，突然有人掏出汉诺塔玩具来测试AI，荒诞感直接拉满

思考？都是演技！

苹果这篇论文的核心暴论很简单：现有AI的「推理能力」全是假把式。无论是OpenAI的GPT-4o还是谷歌的Gemini 2.5 Pro，本质上都在用「生成更多废话」来伪装思考过程。

具体操作就是让AI像小学生写数学题一样「展示解题步骤」：先写个「解」字，再列一堆公式，最后突然蹦出个答案。看起来很有逻辑是吧？但苹果说这特么全是演技！

（图源：Sebastian Raschka博客）

从刷题到玩玩具

论文首先怼了行业通行的「跑分定胜负」模式。现在评价AI智商就看MMLU、GPQA这些考试排名，活像在比谁家孩子奥数刷题多。

但苹果指出致命漏洞：这些题库早被AI背得滚瓜烂熟了！就像让学霸提前拿到期末考试卷，考满分能说明真本事吗？

（谷歌用来吹嘘Gemini性能的跑分表）

于是他们祭出四款经典益智玩具：

汉诺塔
（递归问题经典款）
跳棋难题
（一维空间排列组合）
渡河问题
（带着狼羊白菜过河的逻辑题）
积木世界
（空间规划测试）

选这些就是因为：1）解题需要真实推理 2）网上公开资料少，避免AI作弊 3）有明确对错答案

比如汉诺塔规则很简单：

每次只能移动一个圆盘
大盘不能压小盘
最少步数=2^n-1（n是圆盘数）

（想亲自玩的可以去这个在线小游戏）

AI的智商天花板

重点来了！苹果团队发现AI表现呈现诡异的三段式跳水：

1. 低难度关卡普通模型反而更高效，就像人类「用肌肉记忆打字比想字母位置更快」。这时候让AI「多思考」纯属浪费算力。

2. 中等难度「思考型」AI开始展现优势，靠水字数混到更高正确率。

3. 高难度所有AI集体扑街！正确率直接归零，而且会出现「摆烂」神操作：明明还能继续想，突然就躺平不干了。

（Claude 3在不同难度汉诺塔的表现）

更骚的是这些AI的「思考模式」：

简单题
：早就算出正确答案，非要装模作样再瞎编几个错误解法
中等题
：先写一堆错误步骤，最后突然开窍
高难题
：从第一步就开始胡言乱语

最打脸的是——就算把标准答案喂给AI，它们的表现也不会变好！比如直接把汉诺塔递归算法写在提示词里，AI该翻车还是翻车。

苹果的结论：我们以为养了个12岁天才少年，其实是个靠小抄作弊的学渣。

论证翻车现场

虽然我认同「当前AI过度依赖记忆」的观点，但苹果这篇论文的论证简直漏洞百出！

槽点1：选择性失明论文重点批判AI「过度思考」的毛病，却故意忽略最新模型（如GPT-4o）可能已经改善这个问题。很难不怀疑是测试结果不符合预期就藏着不发。

槽点2：甩锅给AI的「躺平」发现AI遇到超难题目会提前放弃，就说是「根本不会思考」。但明明所有AI都被训练过「知难而退」——总不能让用户等20分钟最后来个「我不会」吧？

更搞笑的是，他们没算明白汉诺塔13层以上需要的内存，早就超出测试模型的上下文窗口了！就像骂小学生解不开微积分，却不告诉人家草稿纸只够写四则运算。

槽点3：双标对比论文说AI在「渡河问题」表现比「汉诺塔」差很多，证明是靠记忆。但渡河问题本来就难好几个量级好吗！就像对比「背乘法表」和「解二元一次方程」，能一样吗？

（专门防作弊的ARC-AGI测试中，最强AI正确率也不到9%）

其实要打脸AI吹根本不用这么麻烦，直接说三个行业公认的硬伤：

数据效率极低
：人类小孩看三只猫就能理解「猫」的概念，AI需要三万张标注图片
不会持续学习
：训练完就定型，不像人类能终身更新知识库
零适应能力
：遇到训练集外的场景直接懵逼

现在AI就像个背完整本《百科全书》却不会玩井字棋的「知识瘸子」

苹果的遮羞布

这已经不是苹果第一次diss现代AI了。但隔壁Meta一边骂「LLM没前途」，一边狂练Llama模型。而苹果在干嘛？WWDC2024端出来的「苹果智能」，连我这种买了iPhone15Pro的冤种都想退货！

看看Siri那智障般的表现，再对比论文里指点江山的傲娇语气，简直讽刺到极点。当库克在发布会上吹「设备端AI」时，论文作者却在拆台「现有AI根本不会思考」——精神分裂吗？

（其实苹果自己也在研究神经网络逻辑电路）

说到底，这篇论文就像差生突然举报全班作弊。虽然举报内容可能是真的，但改变不了你自己月考不及格的事实啊！有这功夫写檄文，不如先把Siri的语音识别准确率搞到90%以上？

现在压力来到苹果这边：当所有科技巨头都在All in AI时，你是要继续当个冷眼旁观的「清醒怪」，还是撸起袖子下场真干？毕竟用户可不在乎汉诺塔能叠几层，我们只想知道——什么时候能有个不气死人的语音助手？

专注搞钱与健康 | "欢迎关注、点赞、分享"

爆料 / 交流 / 合作：请加微信 ifloop

加入副业交流群：请加微信 ifloop（备注加群）

推荐阅读

网赚：日进千刀

2025年6月13日星期五

苹果争议性论文《思考的幻觉》到底在打谁的脸？