2025年6月13日星期五

苹果争议性论文《思考的幻觉》到底在打谁的脸?

最近苹果发了一篇争议性爆表的论文,标题直接开炮——《思考的幻觉》(The Illusion of Thinki

最近苹果发了一篇争议性爆表的论文,标题直接开炮——《思考的幻觉》(The Illusion of Thinking)。这帮硅谷大佬们试图用数学游戏证明:现在吹上天的AI大模型根本不会「思考」,全是靠死记硬背在装逼!

但尴尬的是,虽然论文结论可能没错,论证过程却翻车得厉害。今天我们就来扒一扒:

  • 苹果到底想说什么(虽然表达得很笨拙)
  • 当前AI模型的真实短板在哪
  • 对急需AI救命稻草的3万亿市值公司意味着什么

如果你也受够了科技公司天天用「AGI即将到来」的画饼文学割韭菜,这篇绝对能让你爽到。

在这个满嘴「transformer架构」「涌现能力」的行业里,突然有人掏出汉诺塔玩具来测试AI,荒诞感直接拉满

思考?都是演技!

苹果这篇论文的核心暴论很简单:现有AI的「推理能力」全是假把式。无论是OpenAI的GPT-4o还是谷歌的Gemini 2.5 Pro,本质上都在用「生成更多废话」来伪装思考过程。

具体操作就是让AI像小学生写数学题一样「展示解题步骤」:先写个「解」字,再列一堆公式,最后突然蹦出个答案。看起来很有逻辑是吧?但苹果说这特么全是演技!

图片

(图源:Sebastian Raschka博客)

从刷题到玩玩具

论文首先怼了行业通行的「跑分定胜负」模式。现在评价AI智商就看MMLU、GPQA这些考试排名,活像在比谁家孩子奥数刷题多。

但苹果指出致命漏洞:这些题库早被AI背得滚瓜烂熟了!就像让学霸提前拿到期末考试卷,考满分能说明真本事吗?

图片

(谷歌用来吹嘘Gemini性能的跑分表)

于是他们祭出四款经典益智玩具:

  1. 汉诺塔
    (递归问题经典款)
  2. 跳棋难题
    (一维空间排列组合)
  3. 渡河问题
    (带着狼羊白菜过河的逻辑题)
  4. 积木世界
    (空间规划测试)
图片

选这些就是因为:1)解题需要真实推理 2)网上公开资料少,避免AI作弊 3)有明确对错答案

比如汉诺塔规则很简单:

  • 每次只能移动一个圆盘
  • 大盘不能压小盘
  • 最少步数=2^n-1(n是圆盘数)
图片

(想亲自玩的可以去这个在线小游戏)

AI的智商天花板

重点来了!苹果团队发现AI表现呈现诡异的三段式跳水:

1. 低难度关卡普通模型反而更高效,就像人类「用肌肉记忆打字比想字母位置更快」。这时候让AI「多思考」纯属浪费算力。

2. 中等难度「思考型」AI开始展现优势,靠水字数混到更高正确率。

3. 高难度所有AI集体扑街!正确率直接归零,而且会出现「摆烂」神操作:明明还能继续想,突然就躺平不干了。

图片

(Claude 3在不同难度汉诺塔的表现)

更骚的是这些AI的「思考模式」:

  • 简单题
    :早就算出正确答案,非要装模作样再瞎编几个错误解法
  • 中等题
    :先写一堆错误步骤,最后突然开窍
  • 高难题
    :从第一步就开始胡言乱语

最打脸的是——就算把标准答案喂给AI,它们的表现也不会变好!比如直接把汉诺塔递归算法写在提示词里,AI该翻车还是翻车。

苹果的结论:我们以为养了个12岁天才少年,其实是个靠小抄作弊的学渣。

论证翻车现场

虽然我认同「当前AI过度依赖记忆」的观点,但苹果这篇论文的论证简直漏洞百出!

槽点1:选择性失明论文重点批判AI「过度思考」的毛病,却故意忽略最新模型(如GPT-4o)可能已经改善这个问题。很难不怀疑是测试结果不符合预期就藏着不发。

槽点2:甩锅给AI的「躺平」发现AI遇到超难题目会提前放弃,就说是「根本不会思考」。但明明所有AI都被训练过「知难而退」——总不能让用户等20分钟最后来个「我不会」吧?

更搞笑的是,他们没算明白汉诺塔13层以上需要的内存,早就超出测试模型的上下文窗口了!就像骂小学生解不开微积分,却不告诉人家草稿纸只够写四则运算。

槽点3:双标对比论文说AI在「渡河问题」表现比「汉诺塔」差很多,证明是靠记忆。但渡河问题本来就难好几个量级好吗!就像对比「背乘法表」和「解二元一次方程」,能一样吗?

图片

(专门防作弊的ARC-AGI测试中,最强AI正确率也不到9%)

其实要打脸AI吹根本不用这么麻烦,直接说三个行业公认的硬伤:

  1. 数据效率极低
    :人类小孩看三只猫就能理解「猫」的概念,AI需要三万张标注图片
  2. 不会持续学习
    :训练完就定型,不像人类能终身更新知识库
  3. 零适应能力
    :遇到训练集外的场景直接懵逼

现在AI就像个背完整本《百科全书》却不会玩井字棋的「知识瘸子」

苹果的遮羞布

这已经不是苹果第一次diss现代AI了。但隔壁Meta一边骂「LLM没前途」,一边狂练Llama模型。而苹果在干嘛?WWDC2024端出来的「苹果智能」,连我这种买了iPhone15Pro的冤种都想退货!

看看Siri那智障般的表现,再对比论文里指点江山的傲娇语气,简直讽刺到极点。当库克在发布会上吹「设备端AI」时,论文作者却在拆台「现有AI根本不会思考」——精神分裂吗?

图片

(其实苹果自己也在研究神经网络逻辑电路)

说到底,这篇论文就像差生突然举报全班作弊。虽然举报内容可能是真的,但改变不了你自己月考不及格的事实啊!有这功夫写檄文,不如先把Siri的语音识别准确率搞到90%以上?

现在压力来到苹果这边:当所有科技巨头都在All in AI时,你是要继续当个冷眼旁观的「清醒怪」,还是撸起袖子下场真干?毕竟用户可不在乎汉诺塔能叠几层,我们只想知道——什么时候能有个不气死人的语音助手?


专注搞钱与健康 | "欢迎关注、点赞、分享"


爆料 / 交流 / 合作:请加微信 ifloop

加入副业交流群:请加微信 ifloop(备注加群)



推荐阅读


没有评论:

发表评论

从焦虑症患者到400万用户创始人:一个波兰女孩的创业故事

今天我要分享的这个故事,主角是一位波兰女孩安妮娅。她没有技术背景,没有创业经验,没有投资人的支持,甚至连启动资金都是自己攒的那点钱。 今天我要分享的这个故事,主角是一位波兰女孩安妮娅。她没有技术背景,没有创业经验,没有投资人的支持,甚至连启动资金都是自己攒的那点钱。但就是这样...