2025年6月19日星期四

【思维】如果我们对 AI 的理解全都错了呢?

最近大家是不是被各种 AI 实验室、创业公司、投资人和科技巨头的信息轰炸得有点头大?

image.png

最近大家是不是被各种 AI 实验室、创业公司、投资人和科技巨头的信息轰炸得有点头大?但你注意到没有,这些人——真的是所有人——其实都在押同一个注:生成式 AI(Generative AI)

现在 AI 和生成式 AI 基本快成同义词了。这套叙事几乎吞掉了所有关注、资本和市场动能,好像除了生成式 AI 之外,其他一切都无关紧要。

但如果……我们全都搞错了呢?

Meta 现在出来放话,说 大语言模型(LLM)不会是机器智能的核心基石。这几乎等于在否定过去几年里 AI 领域几乎每一笔投资背后的核心假设。为啥?接着看。

生成式 AI:通往 AGI 的捷径还是大坑?

简单来说,Meta 最近抛出了对现状的第一次真正挑战:一个非生成式的 AI 世界模型,居然拿到了多个领域的 SOTA(state-of-the-art,最先进成绩)。而且他们还明确表示,大家都做错了,所有人都在把注押在了错误的地方。

那什么是世界模型?为啥它这么重要?

通俗讲,世界模型基于人脑的主动推断原理,也就是大脑会在我们心里建一个"内在世界的模型",用它预测现实世界接下来会发生什么。这套机制是人类在这个复杂多变、信息不完全的世界上能活下来的底层逻辑。

如果你觉得这些术语有点绕,别急,我给你讲得更简单点。

世界模型到底是啥?

Meta 的研究员希望打造的这个"世界模型",说白了就是给机器装上"常识引擎"。(这是 Meta 首席科学家 Yann LeCun 的原话)

那什么是"常识"?

从我们很小的时候开始,就会形成一些对世界预期的直觉。比如婴儿很早就会发现:把球扔上天,它会掉下来。没人会指望那球悬在空中不动,因为我们知道重力的存在。

这些直觉构成了我们所谓的"常识"。常识让我们在复杂世界中能预判下一步,提高生存几率。
你知道悬崖边再多走一步会出事,或者在车前那辆车急刹时,大脑会瞬间指挥腿去踩刹车。

所以,大脑的世界模型其实是一个对世界的简化表达,它保留了关键要素,忽略不重要的信息,这样它才能高效预测下一步会发生啥。

换句话说,拥有一个世界模型,至少证明你对这个世界有一定程度的理解。

科学家们想训练世界模型的原因也就显而易见了:一个懂世界的 AI,才是通向通用人工智能(AGI)的最短路。 这也是很多大厂实验室的终极目标,比如 Google DeepMind 的创始人兼 CEO Demis Hassabis 就公开说过,他们追求的不是推理模型,不是垂直领域代理,而是能给机器带来常识的世界模型。

但如今大家的希望,都押在了 ChatGPT 或 Gemini 能带我们实现这个愿景上。问题来了:

这种思路本身是不是有缺陷?生成式模型能靠"生成"去理解世界吗?

ChatGPT 有世界模型吗?

过去很长时间,主流观点是像 ChatGPT 这样的生成式模型,可以通过"生成"世界来理解世界。
只要模仿足够多真实世界的数据(文字、视频),模型就能掌握世界的本质。

有产品这么干过吗?

当然有,比如 Google 的 Genie 2。它接收一段视频和用户操作,然后生成接下来的画面,用于预测游戏环境中接下来会发生啥。

比如,前一帧显示船在水上,用户点击右键,那下一帧就生成船往右开。

图片

听上去很合理吧?为了生成接下来会发生的事,模型必然得理解对吧?

答案是:也许,但也可能完全不是那么回事。

为什么生成像素没那么靠谱?

最大的质疑是:没必要生成场景里的每个细节才能理解它。

至少人脑不是这么干的。我们不需要在脑海里画出树上每片叶子的细节,就能知道那是棵树。
你闭上眼睛想象棵树,你脑海里的"树"是什么样?肯定是简化过的轮廓,而不是一片片叶子的精确样貌。

image.png

咱们看到右边这张简笔画一样的图,也能立马认出这是树。
因为大脑只存下了"足够认出它是树"的关键部分。

所以,如果世界模型的任务是捕捉每样东西的本质特征,而不是存下宇宙中每个物体的毫米级细节,那训练 AI 每次都去生成完整细节就没啥意义了。

这时候,JEPA 就登场了。

非生成式的新路

JEPA 的核心理念是:理解不需要复刻。
人脑预测世界,也不是靠先画出来。

JEPA 的背后逻辑

JEPA 的思路 更像人类:它在抽象的表示空间里做预测。
意思是它不是生成模型,不负责画画、生成,而是在内部做预测,像我们大脑一样。

为啥要这么干?
简单:因为这样预测更轻松
不要求模型生成每个细节,它只需要知道大概会发生啥。比如球会落地,而不是落地时的精确角度、速度、阴影形状。

换句话说,理解球会落地,不需要先模拟整个世界的画面。人脑没这么干,因为那没必要。

JEPA 的训练方法很有意思,它用视频片段,先遮住一部分像素,然后要求模型还原出来。重点不在像素,而在理解原视频的含义。

image.png

它的目的就是逼模型去习惯现实中那些"看不全"的场景。

什么是狗?

如果让机器人学会分辨狗,你是让它生成一只超细节的狗,还是教它狗的基本特征(四条腿、毛茸茸、有尾巴)?

显然是后者。
因为如果学得太细,一旦它看到一只不完全符合标准的狗,它反而分不出来。

这就是智能:抽象出关键模式,从而做出正确判断。

而这种训练方式可以让模型在信息不全时也有能力识别,比如看到狗从墙角探出头,它也知道那是狗。

结果

JEPA 模型表现很好,它可以捕捉复杂动作并做出预测:

image.png

或者预测机器人下一步要干嘛:
image.png

重点是:它不用画出来就知道会发生什么。
这就是对生成式 AI 的公开挑战:大型语言模型可能并不是 AI 的智能引擎。

语言是交流工具,不是智能引擎?

如果 AI 行业真改用 JEPA 这套架构,那对现在一众 AI 实验室的估值就是致命打击。

语言模型仍然重要,因为它是机器跟人交流的桥梁。
但未来 AI 系统真正的智能引擎,可能是非生成式的世界模型,而不是 GPT、Gemini 这样的生成语言引擎。

目前大语言模型的热度短期不会退,OpenAI 也不可能立刻拥抱 JEPA。
但 Meta 已经让怀疑者拿下了第一分。
如果 JEPA+LLM 的组合真被 Meta 玩明白了,接下来谁输谁赢,可就说不准了。


专注搞钱与健康 | "欢迎关注、点赞、分享"


爆料 / 交流 / 合作:请加微信 ifloop

若群满:请加微信 ifloop(备注加群)

图片



推荐阅读

没有评论:

发表评论

在美国,怎么“躺着”找到批发商?

大家心心念念的第二弹来了!上期我分享了一个超实用的技巧:0起步,我是怎么在美国对接到2B大客戶的通过线下门店聊天,撬出供货商后台。 大家心心念念的第二弹来了!上期我分享了一个超实用的技巧: 0起步,我是怎么在美国对接到2B大客戶的 通过线下门店聊天,撬出供货商后台。 结果很多...