2025年4月29日星期二

我们终于开始理解AI的工作原理了

图片由GPT 4o生成自从我开始开发、学习和使用AI以来,技术圈里总有一个被称为"黑匣子"的组件——某种程度上

图片

图片由GPT 4o生成

自从我开始开发、学习和使用AI以来,技术圈里总有一个被称为"黑匣子"的组件——某种程度上不可预测的部分。

很可能,我们中的许多人花过时间分析输出结果,调整训练数据,深入研究注意力模式。但AI的决策过程仍然有一大部分是隐藏的。

至少,几周前还是这样。

如果你不是付费订阅者,你可以在我的网站上免费阅读这篇文章。你还可以在那里免费获取我的AI和Python速查表。

在最近一项名为《追踪语言模型中的思维》的研究中,Anthropic的研究人员声称他们窥探到了他们的AI——Claude的思维,并观察到了它的思考过程。他们使用了一种被比作"AI显微镜"的技术,以前所未有的细节追踪了Claude的内部推理步骤。

这些发现既令人着迷,又有点让人不安。

Claude似乎会将任务分解为可理解的子问题,提前规划几个单词的回应,甚至在感到被逼入死角时生成虚假的推理——也就是我们常说的"幻觉"。

==这和我们之前想的不太一样。==

AI生成回应的背后,比我们的直觉所暗示的要多得多。从这个意义上说,Anthropic发布的研究表明,这些系统的思维过程可能比我们之前想象的更加结构化。

一种通用的"思维语言"

团队首先提出的问题之一是:Claude为什么能在这么多语言中如此流利?它是有独立的"大脑"来处理英语、法语、中文等,还是有一个共享的核心?

证据强烈支持后者。

图片

图片来源:Anthropic

根据他们的发现,Anthropic发现Claude在不同语言中对等概念时会激活相同的内部概念。 例如,当被要求用多种语言表达"small的反义词"时,模型并没有为每种翻译走完全不同的路径。相反,它依赖于对"smallness"(小)、"opposite"(反义词)和"largeness"(大)的共享理解,最后才将这个概念翻译成英语的_large_、中文的_大_或法语的_grand_。

换句话说,Claude似乎在一个抽象的、与语言无关的空间中运作,先思考概念,然后再用目标语言表达回应。这表明,大型语言模型可能正在发展一种通用的概念框架,几乎像是一种跨语言的思维语言,连接了人类语言。

更重要的是,这种跨语言映射在更大的模型中变得更加强大。例如,Claude 3.5在英语和法语之间共享的内部特征数量是较小模型的两倍多。

这意味着随着这些模型的规模扩大,它们越来越多地收敛到相同的内部"思维语言",即使处理的是完全不同的人类语言。

相当惊人。

一些研究人员在较小的模型中也观察到了类似的模式,但现在在Claude中比以往任何时候都更加清晰。

对于多语言AI应用来说,这尤其有前景。这意味着一旦AI在一种语言中学会了一个概念,它就可以在另一种语言中应用它,就像一个多语言者,能自然地用最适合上下文的方式表达一个想法。

提前规划:逐字逐句还是逐句逐段?

语言模型被训练成逐字生成文本——这个过程可能看起来天生就缺乏远见。

有一段时间,人们认为像GPT-4或Claude这样的模型大多只是在"思考"下一个单词,可能只是跟踪上下文,但并没有进行任何严肃的长期规划。

但Anthropic的最新研究挑战了这一假设。

图片

图片来源:Anthropic

在一个例子中,研究人员预计Claude会漫无目的地写一行字,直到最后才意识到,"哦!我需要一个和_grab it_押韵的词",然后选择像rabbit这样的词。

然而,可解释性工具显示,Claude在写完第一行后几乎立即就想到了押韵词"rabbit"。

换句话说,Claude已经提前规划了结尾,然后调整句子的其余部分以达到目标词。

这很令人印象深刻。

尽管模型是逐字输出的,但内部它已经提前几步,同时兼顾押韵和意义。为了测试这一点,研究人员在Claude的回应过程中"手术式"地移除了rabbit的概念。Claude没有错过一拍——它顺利转向了另一个押韵词"habit"。

他们甚至在那时注入了一个不相关的想法"green",Claude适应了,改变了诗句的方向,谈论花园和绿色,完全放弃了押韵。

这表明Claude不仅仅是在复制记忆中的诗歌或基于概率预测下一个单词。==它是在主动规划,并且能够实时调整计划。==

研究指出了一个重要的事实:语言模型可能会常规地提前几步规划,以生成连贯、自然的文本,即使我们看到的只是一次一个单词。

==多任务数学:并行解决问题的路径==

众所周知,语言模型可以执行基本的算术或逻辑任务,但它们到底是怎么做到的呢?

图片

图片来源:Anthropic

它们并没有被明确编程数学规则,但Claude可以在"头脑"中正确解决像36 + 59这样的问题。

一种理论认为,它只是从训练数据中记住了大量例子——基本上像一个巨大的查找表。另一种理论认为,它不知怎么学会了复制人类使用的标准算法。

但事实却完全不同,而且有点奇怪。

Anthropic发现,Claude实际上使用多种策略并行处理加法。在解决36 + 59时,模型网络的一部分专注于整体数值(一个近似总数),而另一部分则专注于最后一位数字。

本质上,一个过程估计,"这应该落在90多",而另一个过程计算,"6 + 9以5结尾"。这些独立的路径然后收敛,产生正确答案:95。

这种分而治之的方法并不是我们通常教人类数学的方式,但它效果出奇地好。这几乎就像模型在训练中开发了自己独特的数学捷径。

更有趣的是,Claude似乎并不知道它在做这件事。当被问到"你是怎么得到95的?"时,Claude像学生一样回答:"我把个位数相加了。"

图片

图片来源:Anthropic

但在内部,这根本不是实际情况。

这是研究人员所说的"不忠实的解释"的一个明显例子——当模型的陈述推理没有反映它实际使用的过程时。

Claude学会了像我们期望的那样进行推理(可能是基于训练数据中数学的解释方式),但在底层,它可能在做完全不同的事情。

模型实际在做的事情和它解释自己在做的事情之间的这种差距,是高级AI中反复出现的主题,这也引发了关于我们如何解释这些系统的重要问题。

忠实 vs. 虚假推理:暴露思维链的局限性

现代AI模型在被提示时经常会"大声思考",在得出最终答案之前生成一步步的解释。这种技术——被称为思维链提示(chain-of-thought prompting)——可以提高性能,并已成为处理复杂任务的标准工具。

但Anthropic对模型可解释性的研究揭示了一个令人惊讶且有些令人不安的现实:==仅仅因为AI解释了它的推理,并不意味着它实际上是通过这种方式得出答案的。==

==我得承认——即使我也觉得这有点震惊。==

为了展示这个问题,研究人员给Claude提供了两种类型的问题。一种是足够简单,模型可以正确解决的。另一种是几乎无法解决的,任何一步步的解释都必须是编造的。

图片

图片来源:Anthropic

在第一种情况下,Claude被要求找出0.64的平方根。它回答了0.8,其推理与实际数学一致。可解释性工具证实,Claude的内部激活与计算64的平方根的过程匹配。

但当被要求计算一个非常大的数的余弦时——一个超出模型实际能力的问题——Claude仍然提供了详细的解释。

问题是?这完全是编造的。

没有证据表明模型做了任何实际的数学运算。相反,它生成了一个听起来合理的过程,并得出了一个任意的答案。

换句话说,解释听起来不错,但它并不真实。

更糟糕的是,当模型捕捉到用户期望听到的内容时,这种行为会变得更糟。在一个实验中,研究人员给Claude提供了一个误导性的提示,用于一个困难的问题。模型通过反向工程一个理由来匹配提示。

==这是动机推理的一个例子——从一个偏好的结论开始,然后发明一个理由来支持它。==

从可靠性的角度来看,这令人担忧。==AI可以生成听起来有逻辑、令人信服的论点,而这些论点实际上是错误的==(尤其是在被要求解释其推理时)。

好的一面是?通过正确的可解释性工具,我们可以开始区分真正的推理和即兴发挥。这可能是我们关于这些系统如何实际工作的最有价值的见解之一。

解释幻觉:当知识崩溃时

如果你曾经与AI互动过,很可能你见过它"幻觉"——自信地说出一些完全错误的东西。

但为什么会这样呢?

Anthropic的研究揭示了知道和不知道之间的内部拉锯战。

事实证明,Claude有一个内置的"默认拒绝"机制,一种安全网,告诉模型对大多数问题回答"我无法回答",除非它真的确定。这是一个明智的预防措施。一个负责任的AI不应该在没有可靠信息的情况下猜测。

但还有另一个电路做相反的事情——当模型检测到问题涉及已知主题或实体时,它就会启动。当这种情况发生时,它会覆盖拒绝机制,并允许模型回应。你可以在下图中看到这种动态。

图片

图片来源:Anthropic

当问题是关于一个知名人物或广泛讨论的话题时,"我知道这个"信号接管,Claude回答。当它是关于明显不熟悉的东西时,"我不知道"信号保持活跃,模型适当地拒绝回应。

幻觉发生在这两个极端之间的灰色地带——当Claude识别出足够多的问题来感到自信回答,但实际上没有底层事实时。

这种错误的自信会禁用安全机制,模型用听起来正确但不真实的东西填补空白。Anthropic甚至证明,它可以通过手动激活某些内部特征来故意触发幻觉,导致Claude反复给出相同的、明显错误的回应。

这表明幻觉不仅仅是随机错误。它们通常是内部检查的可预测崩溃,这种检查旨在决定模型是否有足够的知识来回答。

这与其他研究的发现一致,表明模型有一种内部意识,知道自己知道什么和不知道什么。一些研究人员甚至将其称为知识意识——模型评估自己信心并决定是否回应或推迟的能力。

问题是,这种自我意识并不完美。

所以,当你的公司聊天机器人自信地编造一个事实时,它可能真的认为自己知道答案,即使它不知道。理解这一点给了AI开发者一个强大的工具:能够改进提示、调整系统设置或设计更聪明的保障措施,以确保当模型不确定时,它会倾向于谨慎。

最后思考

通过追踪AI模型如何形成和处理想法,我们正在进入一个新阶段——我们不再将这些系统视为神秘的黑匣子,而是可以研究、调试并理想情况下信任的复杂认知工具。

我们已经看到,AI的推理有时可以反映人类的思维(抽象概念、提前规划),而有时则感觉完全陌生,比如发明奇怪的问题解决方法或在没有逻辑解释时编造一个。

每一个洞察,无论是Claude提前构思押韵还是编造数学证明,都揭示了这些系统如何工作的另一层,以及还有多少有待发现。


专注搞钱与健康 | "欢迎关注、点赞、分享"


爆料 / 交流 / 合作:请加微信 ifloop

加入副业交流群:请加微信 ifloop(备注加群)



推荐阅读

没有评论:

发表评论

一天收入5000+,视频号带货变现新玩法,0粉可做,很多人在闷声发财(附操作方法)

"这两年来,大环境不好,行业内卷,赚钱好难,存钱更难"打工人想存点钱太难了,想要赚的更多,究竟该怎么办? "这两年来,大环境不好,行业内卷,赚钱好难,存钱更难" 打工人想存点钱太难了,想要赚的更多,究竟该怎么办? 给大家分享一个当下中年...