最近大家是不是被各种 AI 实验室、创业公司、投资人和科技巨头的信息轰炸得有点头大?
最近大家是不是被各种 AI 实验室、创业公司、投资人和科技巨头的信息轰炸得有点头大?但你注意到没有,这些人——真的是所有人——其实都在押同一个注:生成式 AI(Generative AI)。
现在 AI 和生成式 AI 基本快成同义词了。这套叙事几乎吞掉了所有关注、资本和市场动能,好像除了生成式 AI 之外,其他一切都无关紧要。
但如果……我们全都搞错了呢?
Meta 现在出来放话,说 大语言模型(LLM)不会是机器智能的核心基石。这几乎等于在否定过去几年里 AI 领域几乎每一笔投资背后的核心假设。为啥?接着看。
生成式 AI:通往 AGI 的捷径还是大坑?
简单来说,Meta 最近抛出了对现状的第一次真正挑战:一个非生成式的 AI 世界模型,居然拿到了多个领域的 SOTA(state-of-the-art,最先进成绩)。而且他们还明确表示,大家都做错了,所有人都在把注押在了错误的地方。
那什么是世界模型?为啥它这么重要?
通俗讲,世界模型基于人脑的主动推断原理,也就是大脑会在我们心里建一个"内在世界的模型",用它预测现实世界接下来会发生什么。这套机制是人类在这个复杂多变、信息不完全的世界上能活下来的底层逻辑。
如果你觉得这些术语有点绕,别急,我给你讲得更简单点。
世界模型到底是啥?
Meta 的研究员希望打造的这个"世界模型",说白了就是给机器装上"常识引擎"。(这是 Meta 首席科学家 Yann LeCun 的原话)
那什么是"常识"?
从我们很小的时候开始,就会形成一些对世界预期的直觉。比如婴儿很早就会发现:把球扔上天,它会掉下来。没人会指望那球悬在空中不动,因为我们知道重力的存在。
这些直觉构成了我们所谓的"常识"。常识让我们在复杂世界中能预判下一步,提高生存几率。
你知道悬崖边再多走一步会出事,或者在车前那辆车急刹时,大脑会瞬间指挥腿去踩刹车。
所以,大脑的世界模型其实是一个对世界的简化表达,它保留了关键要素,忽略不重要的信息,这样它才能高效预测下一步会发生啥。
换句话说,拥有一个世界模型,至少证明你对这个世界有一定程度的理解。
科学家们想训练世界模型的原因也就显而易见了:一个懂世界的 AI,才是通向通用人工智能(AGI)的最短路。 这也是很多大厂实验室的终极目标,比如 Google DeepMind 的创始人兼 CEO Demis Hassabis 就公开说过,他们追求的不是推理模型,不是垂直领域代理,而是能给机器带来常识的世界模型。
但如今大家的希望,都押在了 ChatGPT 或 Gemini 能带我们实现这个愿景上。问题来了:
这种思路本身是不是有缺陷?生成式模型能靠"生成"去理解世界吗?
ChatGPT 有世界模型吗?
过去很长时间,主流观点是像 ChatGPT 这样的生成式模型,可以通过"生成"世界来理解世界。
只要模仿足够多真实世界的数据(文字、视频),模型就能掌握世界的本质。
有产品这么干过吗?
当然有,比如 Google 的 Genie 2。它接收一段视频和用户操作,然后生成接下来的画面,用于预测游戏环境中接下来会发生啥。
比如,前一帧显示船在水上,用户点击右键,那下一帧就生成船往右开。
听上去很合理吧?为了生成接下来会发生的事,模型必然得理解对吧?
答案是:也许,但也可能完全不是那么回事。
为什么生成像素没那么靠谱?
最大的质疑是:没必要生成场景里的每个细节才能理解它。
至少人脑不是这么干的。我们不需要在脑海里画出树上每片叶子的细节,就能知道那是棵树。
你闭上眼睛想象棵树,你脑海里的"树"是什么样?肯定是简化过的轮廓,而不是一片片叶子的精确样貌。
咱们看到右边这张简笔画一样的图,也能立马认出这是树。
因为大脑只存下了"足够认出它是树"的关键部分。
所以,如果世界模型的任务是捕捉每样东西的本质特征,而不是存下宇宙中每个物体的毫米级细节,那训练 AI 每次都去生成完整细节就没啥意义了。
这时候,JEPA 就登场了。
非生成式的新路
JEPA 的核心理念是:理解不需要复刻。
人脑预测世界,也不是靠先画出来。
JEPA 的背后逻辑
JEPA 的思路 更像人类:它在抽象的表示空间里做预测。
意思是它不是生成模型,不负责画画、生成,而是在内部做预测,像我们大脑一样。
为啥要这么干?
简单:因为这样预测更轻松。
不要求模型生成每个细节,它只需要知道大概会发生啥。比如球会落地,而不是落地时的精确角度、速度、阴影形状。
换句话说,理解球会落地,不需要先模拟整个世界的画面。人脑没这么干,因为那没必要。
JEPA 的训练方法很有意思,它用视频片段,先遮住一部分像素,然后要求模型还原出来。重点不在像素,而在理解原视频的含义。
它的目的就是逼模型去习惯现实中那些"看不全"的场景。
什么是狗?
如果让机器人学会分辨狗,你是让它生成一只超细节的狗,还是教它狗的基本特征(四条腿、毛茸茸、有尾巴)?
显然是后者。
因为如果学得太细,一旦它看到一只不完全符合标准的狗,它反而分不出来。
这就是智能:抽象出关键模式,从而做出正确判断。
而这种训练方式可以让模型在信息不全时也有能力识别,比如看到狗从墙角探出头,它也知道那是狗。
结果
JEPA 模型表现很好,它可以捕捉复杂动作并做出预测:
或者预测机器人下一步要干嘛:
重点是:它不用画出来就知道会发生什么。
这就是对生成式 AI 的公开挑战:大型语言模型可能并不是 AI 的智能引擎。
语言是交流工具,不是智能引擎?
如果 AI 行业真改用 JEPA 这套架构,那对现在一众 AI 实验室的估值就是致命打击。
语言模型仍然重要,因为它是机器跟人交流的桥梁。
但未来 AI 系统真正的智能引擎,可能是非生成式的世界模型,而不是 GPT、Gemini 这样的生成语言引擎。
目前大语言模型的热度短期不会退,OpenAI 也不可能立刻拥抱 JEPA。
但 Meta 已经让怀疑者拿下了第一分。
如果 JEPA+LLM 的组合真被 Meta 玩明白了,接下来谁输谁赢,可就说不准了。
专注搞钱与健康 | "欢迎关注、点赞、分享"
爆料 / 交流 / 合作:请加微信 ifloop
若群满:请加微信 ifloop(备注加群)
推荐阅读
没有评论:
发表评论