2026年5月25日星期一

Reflection AI:用强化学习打造自主编程Agent,实现代码超级智能

本文解析Reflection AI如何结合LLM广度与强化学习深度,构建可靠自主的编程Agent。适合AI从业者与开发者阅读。核心亮点:后训练强化学习仍有巨大空间;自主编程被视为AGI完整问题;产品关键指标是可靠性而非模型本身。通过Waymo式边界定义,在明确范围内实现端到端工程任务。

Tags:

2016年,AlphaGo 击败李世石,让世界第一次真正感受到 AI 的“超人类创造力”。多年后,ChatGPT 引爆大模型浪潮,AI 又拥有了前所未有的通用表达能力。但在两位前 Google DeepMind 研究员 Misha Laskin 和 Ioannis Antonoglou 看来,这还不够。语言模型解决了智能的“广度”,却还没有解决可靠行动的“深度”。他们创办 Reflection AI,押注的正是这个缺口:用强化学习训练真正能自主完成复杂任务的编程 Agent。


一、AlphaGo第37手:AI第一次让人类看到“超人类创造力”

Reflection AI 的故事,要从 AlphaGo 与李世石的那场围棋大战说起。
在第四局中,李世石用一手出人意料的“挖”赢下比赛。赛后,他笑着说,自己从来没有因为赢下一盘棋而收到这么多祝贺。
但真正震撼世界的,并不是李世石第四局的第78手,而是 AlphaGo 在第二局下出的第37手。
那一步棋极其反常规。李世石和现场许多人一开始都以为是错误,后来才意识到,这一步非常“美”。它在人类棋手中出现的概率只有万分之一,却成为 AI 展示超人类创造力的标志性瞬间。
在第五局最后阶段,AlphaGo 团队挤在首尔四季酒店的 VIP 套房里。那里临时变成了作战指挥中心。
团队负责人 David Silver 身边,一边是 DeepMind 创始人 Demis Hassabis,另一边是研究工程师 Ioannis Antonoglou。
Ioannis 的工作,是加速 AlphaGo 背后的神经网络。
当李世石最终认输时,团队完成了一段持续两年的强化学习探索旅程。对 Ioannis 来说,这也是一次职业选择的验证。
他在2012年加入 DeepMind,当时是公司第25名员工、第6名研究员。他后来回忆,DeepMind 是当时世界上唯一真正认真考虑构建 AGI 的地方。
AlphaGo 的胜利,也影响了远在美国的另一个人。
在芝加哥,一位刚拿到量子物理博士学位的年轻人 Misha Laskin 读到了 AlphaGo 论文,并因此改变了人生方向。
他觉得这项工作像理论物理一样美,但又能产生真实世界影响。他意识到,这可能是人类第一次真正看到未来与超级智能共处会是什么样子。
多年后,Misha 和 Ioannis 会一起创办 Reflection AI。
这家公司要解决的问题,不是再做一个聊天机器人,而是构建真正能自主完成工作的编程 Agent。
图片

二、Ioannis的路线:从DQN到AlphaGo,再到MuZero

Ioannis 在 DeepMind 的第一位合作者是 Vlad Mnih。
Vlad 是 DQN,也就是 Deep Q Network 的核心研究者之一。DQN 是第一个深度强化学习 Agent。
Vlad 让 Ioannis 写一个干净的 DQN 实现,作为 DeepMind 推进深度强化学习研究的基础库。
Vlad 后来评价 Ioannis:他的细节意识和智识严谨性一开始就很突出。他总会追问为什么要做某些设计选择,为什么不早点引入 LSTM 这样的机制。
一年后,David Silver 开始做 AlphaGo。
DQN 已经证明,深度强化学习可以用于游戏。AlphaGo 则在这个基础上加入了很多复杂创新。
其中包括 Monte Carlo Tree Search,也就是蒙特卡洛树搜索。这个算法可以通过模拟游戏结果,探索未来可能的走法。
AlphaGo 还采用了双网络架构:
一个 policy network,用来预测下一步棋。
一个 value network,用来评估棋盘局面。
在当时,这是一套非常庞大的系统。
David Silver 很清楚,要训练系统并在实时比赛中部署,吞吐量和延迟非常关键。于是,他让 Ioannis 编写 GPU kernel,加速正在训练的神经网络。
2014年,DeepMind 被 Google 收购。随后,Ioannis 又开始把系统迁移到 Google 第一代 TPU 上。
这些早期 TPU 很难使用,也很不稳定。但 Ioannis 找到了驯服它们的方法。
他后来回忆,如果自己当时不能让它工作,AlphaGo 后来的成果也就无法实现。
AlphaGo 胜利之后,Ioannis 继续和一个小核心团队扩展游戏 Agent 的能力。
他们先做出了 AlphaGo Zero。
这项工作证明:系统可以从完全随机行为开始,通过自我对弈,一路达到比 AlphaGo 更强的表现。
这个“白板式”的路径很重要,因为它展示了强化学习可以通过自我训练扩展到新问题。
接着,团队又做出了 AlphaZero。
AlphaZero 不仅能下围棋,还能从随机开始学会国际象棋和将棋,而且除了游戏规则之外,不需要额外领域知识。
再过三年,他们推出了 MuZero。
MuZero 不再需要提供完整游戏规则,只看原始像素,就能处理 Atari 游戏。它解决了一个长期挑战:在没有完美世界模拟器的情况下,强化学习如何学习世界动态,并用这个学到的世界模型向未来规划。
这是 Ioannis 的核心技术路线:
把强化学习从规则明确的游戏,推向更开放、更一般的问题。

三、Misha的路线:从量子物理到强化学习,再到Transformer

Misha 虽然被 DeepMind 的研究深深吸引,但他并不是一开始就进入 DeepMind。
他先是有过创业经历,带着一家 AI 创业公司进入 Y Combinator。后来,AI 前沿研究继续吸引他,他又进入伯克利 Pieter Abbeel 实验室做博士后,系统训练自己的 AI 研究能力。
Misha 认为,自己从物理学转到 AI 有一个意外优势:
因为他什么都不懂,所以反而像一张白纸。
这种状态让他愿意尝试一些别人觉得太简单、太显然的方法。
他后来总结,真正让他惊讶的是:把简单的事情正确做好,其实很难。很多人试了简单方法没成功,不一定是因为方法错,而可能是因为没有足够认真地尝试。
在伯克利的两年半里,Misha 主要研究强化学习方法。
他在 DeepMind Control Suite、Atari Games 和 OpenAI Gym 等环境中改进强化学习方法。他研究过数据增强策略,也研究过如何从原始像素中提取高层特征,其中包括 CURL。
他参与合著、引用最多的一篇论文是 Decision Transformer。
这篇论文把强化学习重新表述为序列建模问题,借用了 Transformer 架构的简单性和可扩展性。
这一步很关键。
因为它把强化学习和 Transformer 连接起来,也为后来的大模型时代埋下了一条技术线索。

四、在多伦多相遇:他们共同关心的是“更通用的Agent”

2021年,Misha 面试了 DeepMind 多伦多的新 general agents 团队。这个团队由 Vlad Mnih 负责。
Vlad 立刻被 Misha 对强化学习和无监督方法的热情打动。Misha 加入后,上手 Google 基础设施很快,几周内就开始产出研究结果。
Vlad 也欣赏 Misha 的“白纸”视角:面对新问题时,他喜欢从非常简单的方法开始。
在研究中,人们很容易把问题复杂化。但 Misha 很擅长找到能解决问题的最简单方法。
后来,Vlad 和 Misha 一起合作了论文《In-context reinforcement learning with algorithm distillation》。
这项工作起源于 DeepMind 的一次黑客松项目。
他们决定训练一个 Transformer 来模仿强化学习算法,看看它是否能在未训练过的任务上表现出自我改进能力。
结果他们发现,这个 Transformer 学到了一种比它被训练模仿的强化学习算法更高效的 RL 算法。
这成为上下文自我改进的早期例子,而这个方向后来也成为 LLM 研究中的活跃领域。
到这里,Misha 和 Ioannis 虽然经历不同,但都在推动同一个问题:
如何通过规模化和算法改进,让深度强化学习 Agent 变得更强、更通用?
然后,2022年11月30日,AI 历史发生了转折。
ChatGPT 发布了。

五、ChatGPT改变一切:强化学习的价值突然显现

Ioannis 后来回忆,ChatGPT 出现之后,一切都变了。
整个行业都看到了:这些系统已经非常强大,而且可以成为更高智能系统的起点。
ChatGPT 的成功,也让深度强化学习的价值以一种新的方式显现出来。
因为 RLHF,也就是基于人类反馈的强化学习,是 ChatGPT 训练中的关键部分。它帮助模型输出更符合人类偏好和价值观的内容。
OpenAI 没有发明深度强化学习,也没有发明 Transformer,但它第一次把这些方法以如此规模部署出来,并做出了一个爆发式消费级产品。
ChatGPT 两个月达到1亿用户,震动整个科技行业,也尤其震动了 Google。
2023年初,Google CEO Sundar Pichai 发起了 “code red”,并请 Larry Page 和 Sergey Brin 帮助公司追赶 OpenAI。
几个月后,Google Brain 与 DeepMind 合并,成为 Google DeepMind,由 Demis Hassabis 领导。
对 Ioannis 来说,这意味着 AlphaGo 这一脉的研究正式告一段落。
他被任命领导 Google 新大语言模型 Gemini 的 RLHF 工作。
Misha 也想加入 Gemini 团队。Ioannis 邀请他负责 reward models,也就是奖励模型方向。
接下来的两年里,他们共同参与推出 Gemini 1 和 Gemini 1.5。
Misha 一开始对 Ioannis 有些敬畏,但后来发现他是一位非常以人为中心的领导者。
他会深入理解团队成员真正的驱动力,然后把他们引导到能够对 Gemini 产生影响的方向上。
在 Misha 看来,这是 Ioannis 作为领导者的超能力。

六、Gemini之后,他们看清了一个缺口:LLM很广,但不够深

2023年12月,Google 宣布 Gemini。
2024年2月,Gemini 1.0 发布,在多数基准测试上与 OpenAI GPT-4 相当或更好。
这是一个巨大成就,但团队没有停下。
几个月后,Google 发布 Gemini 1.5,比 OpenAI 下一次重大升级 GPT-4o 早了三个月。
Gemini 1.5 通过 Mixture of Experts 架构提升计算效率,加入多模态能力,并支持百万 token 上下文窗口。
对 Misha 来说,大语言模型的突然崛起,是一次认知重构。
他说,他们一直在试图解决 general agents 问题,但之前看的方向是错的。
他们原本以为“通用性”还没有解决。
但 LLM 出现后,他们意识到,虽然 LLM 有局限,也会编造,但它们已经是人类发明过的最通用系统。
问题在于:
LLM 很广,但不够深。
它们几乎能回答任何问题,但不能可靠地自主完成工作。
你不能像交给同事一样,把一个复杂任务交给它,然后期待它独立完成。
这就是 Reflection AI 的切入点。
Reflection AI 不是为了再做一个“更会聊天的模型”,而是要解决一个更具体的问题:
如何让 AI 像可靠同事一样,自主完成复杂工作?

七、Reflection AI的核心判断:LLM解决广度,强化学习解决深度

2024年3月,Misha 和 Ioannis 离开 DeepMind,创办 Reflection AI。
他们看到,两条过去看似不同的技术路径,终于开始拼到一起:
第一条是大语言模型,提供通用性。
第二条是强化学习,提供可靠行动和能力提升。
Misha 的判断非常清晰:
语言模型解决的是广度问题,强化学习解决的是能力问题。
LLM 具备广泛知识和通用理解能力,但它们的能力是浅的,不够可靠,不够能行动。
强化学习真正擅长的是:在明确反馈中不断提高能力。
在 AlphaGo 里,奖励非常清楚:赢棋或者输棋。
在这种奖励明确的系统里,强化学习几乎像魔法一样有效。
但现实世界的问题更复杂。
怎么判断一个复杂任务完成了?
怎么知道人类是否喜欢模型的回答?
怎么衡量一个开放任务是否真的成功?
这就是 Misha 在 DeepMind 做 general agents 时研究的开放式奖励函数问题。
后来,他发现,自己原本在语言模型之外研究的这个构件,恰好成为训练语言模型的关键构件之一。
到最后,Misha 和 Ioannis 已经实现了一个目标:成为训练语言模型的顶级工匠。
他们理解这些系统的内部机制,却仍然觉得行业通向他们真正关心的问题还不够快。
那个问题就是:
如何构建能够自主行动的超级智能系统?

八、他们为什么选择自主编程Agent作为第一站?

Reflection AI 并不认为所有智能都等于写代码。
但他们认为,代码是当前最适合推动机器智能的表面区域。
原因有两个。
第一,LLM 在代码上特别强。
Misha 提到,LLM 的能力分布并不均匀,而是像人类一样有明显尖峰。原因主要来自训练数据质量和数量差异。
模型的智能不是平均分布在人类所有知识上,而是一种“锯齿状智能”。
第一批普遍意义上的超级智能系统,也很可能不是所有事情都强,而是在某些事情上特别强。
而目前,LLM 最强、也最常用于工作场景的领域,就是代码。
Misha 判断,模型已经表现不错的领域,会被进一步放大。代码很可能是我们最先看到超级智能行为的地方。
第二,软件工程这个类别天然适合机器。
Misha 认为,人类熟悉的图形界面,是因为人类有眼睛和手。GUI 是为人设计的。
但对语言模型来说,它的先验来自互联网上的语言。
而与计算机互动的语言,本质上就是代码。
所以,对语言模型来说,代码就像三维物体操作之于人类一样自然。
他总结说:
代码对语言模型是符合人体工学的。
这句话解释了为什么 Reflection AI 把 autonomous coding 视为通向超级智能的第一块硬地。

九、产品不是模型,而是一个可靠解决问题的系统

Misha 认为,很多 AI 团队误以为模型就是产品。
但 Reflection AI 的看法不同。
他们认为,真正要构建的不是一个模型,而是一个系统。
这个系统由模型和产品结合而成,必须能解决客户真实问题。
他们看到的机会,是构建真正自主的编程 Agent,让它能够准确完成目前工程师会做的端到端任务。
而在 autonomous coding 里,客户最关心的一件事是:
可靠性。
这也是目前很多 coding agent 最大的问题。
它们可能能写代码,可能能生成片段,可能能解决局部任务,但还不能稳定、可靠地完成完整工程任务。
Misha 用 Waymo 做类比。
Waymo 的产品不只是车,还包括地理围栏,也就是明确哪些区域是系统擅长、可靠、安全的区域。
Reflection AI 也希望在软件世界里做类似的事情。
不是一开始宣称能做所有任务,而是先划定一个足够大的“软件版都市区域”,在这个范围里提供强安全性和可靠性保证。
这是一种非常现实的产品思路:
超级智能不是先宣称无所不能,而是先在明确边界内做到高度可靠。

十、自主编程Agent的最终界面:像给同事布置任务一样

Reflection AI 认为,一旦可靠性解决,用户界面会变得非常直觉。
最无摩擦的交互方式,就是像和人沟通一样。
你给它一个工程任务,它回来给你一个实现方案,而且这个实现比你自己原本想象的还要好。
在 Misha 看来,这就是超级智能的样子。
它不是回答问题,也不是生成一段示例代码,而是可以像同事一样接收任务、理解上下文、规划实现、完成工作,并交付结果。
这与今天许多 AI 工具的区别非常大。
今天的很多工具仍然要求用户拆解问题、反复提示、检查结果、修补错误。
Reflection AI 想做的是,让 Agent 自主完成更完整的工作单元。

十一、为什么自主编程可能是AGI完整问题?

Ioannis 认为,自主编程是 AGI complete 的问题。
也就是说,如果你能证明自己拥有一个超级智能的软件开发者,那么某种意义上,你已经拥有了 AGI。
因为接下来只是把同样的算法应用到不同垂直领域。
在他看来,构建智能需要的所有东西,在 autonomous coding 这个问题里都存在。
这也是他们选择从编程开始的原因。
解决自主编程,不只是做一个更好用的开发工具,而是找到训练超级智能系统的配方。
如果这个配方在代码领域成立,就有可能迁移到其他认知任务。
Reflection AI 不是只想做一个 coding tool,而是把 autonomous coding 看作通向更广义超级智能的入口。

十二、后训练里的强化学习,可能还有巨大空间

Reflection AI 的方法非常依赖规模化。
但这里的规模化,不只是预训练阶段的数据和算力规模,而是后训练阶段的数据和算力规模。
Ioannis 在 AlphaGo 时就学到,要得到超人类结果,就必须非常努力地推动系统极限。
但他也承认,这里面存在信念跃迁。
虽然现在有 scaling laws,但只有真正投入计算资源、把系统推到更高数量级,才能知道这些规律是否成立。
预训练 LLM 的 scaling laws 正在开始接近渐近状态。
但在后训练强化学习上,曲线才刚刚开始上升。
这两者有一个关键差别:
LLM 的训练数据可能会逐渐用完。
而强化学习训练数据,很大程度上可以由 Agent 自己在环境互动中产生。
Agent 会做对一些事,也会做错一些事。
做对的事情,未来应该多做。
做错的事情,未来应该少做。
这就是从错误中学习。
Ioannis 认为,如果这个简单机制被正确规模化,就会产生超级智能行为。
Misha 说得更直接:
强化学习是最可扩展的 AI 形式。我们目前基本不知道它的上限在哪里。
这也是 Reflection AI 技术信念的核心。

十三、软件会为AI改变:未来UI可能不再主要为人类设计

如果自主编程 Agent 继续发展,软件本身也会发生变化。
Misha 提到,人类习惯使用图形界面,但这些界面不一定是 AI 最优的使用方式。
GUI 是为有眼睛和手的人设计的。
但语言模型更自然的界面是语言和代码。
未来,很多软件可能会逐渐产生 AI-friendly UI。
这些界面可以让 AI 更快完成任务,甚至接近即时完成。
比如,今天一个人可能需要点击十次完成一个工作流。未来,LLM 可能只需要写一行代码,直接封装整个任务。
Misha 预计,GUI 的一些部分可能会被“吃掉”。在表面上用户仍然发出自然语言请求,而底层可能是语言模型通过代码完成工作。
这意味着,coding agent 未来不只是写软件,也可能成为语言模型操作任何软件的方式。
Reflection AI 对超级智能有一个非常务实的定义:
能够在计算机上做工作,并创造价值的系统。
如果 coding agent 解决了这个问题,它就可能成为语言模型未来操作各种软件的基础方式。
Sequoia 合伙人 Stephanie Zhan 也在文中想象了一个未来:人类会成为超级智能 Agent 的导演,让它们代替我们完成知识工作。

十四、构建超级智能,不只需要模型,还需要环境

Reflection AI 认为,要到达这个未来,不只是训练模型。
还要构建适合机器的工作环境。
从浏览器、代码编辑器,到任务类别的抽象表达,这些环境会为超级智能搭建舞台。
自主 Agent 最适合在定制环境中训练自己的能力,就像 DeepMind 的 Atari 环境,或者 OpenAI Gym。
在代码领域,这些工具和环境比较容易想象。因为软件开发本身已经高度结构化,也更适合机器交互。
但其他认知任务可能需要更大的抽象和环境设计能力。
这也是 Reflection AI 技术路线中一个重要观点:
模型不是孤立变强的,模型是在环境中通过行动和反馈变强的。
如果环境设计得好,Agent 才能更有效地练习、失败、修正和提高。

十五、现在的AI像早期蒸汽机:理论还不完整,但已经可以建系统

文章最后提出了一个很有意思的类比。
今天的 AI,有点像热力学被发现之前的早期蒸汽机。
当时人类还没有完整理解热力学,但这并不妨碍发明者制造新的发动机。
Misha 认为,从理论上深刻理解模型为什么工作,当然会非常有用。
在物理学里,一旦某个东西被理论上深刻理解,往往会带来新的经验创新,因为科学家知道应该去哪里搜索。
但他也强调:
不需要等到理论完全成熟,才开始构建可靠系统。
这和 AI 今天的状态很像。
Misha 早年很崇拜 Richard Feynman,这也是他学习物理的原因之一。
Feynman 在关于能量守恒的讲座中说过:在今天的物理学中,我们其实不知道能量是什么。
文章认为,今天 AI 和智能研究也类似。我们还没有完全理解智能是什么。
DeepMind 创始人 Demis Hassabis 在诺贝尔奖访谈中总结过这个状态:AI 科学是在探索和理解智能是什么,而理解某个东西最好的表达方式,就是尝试把它构建出来。
这也正是 Reflection AI 的路径。
不是先等到所有理论清楚,再去构建超级智能。
而是在构建可靠系统的过程中,逐步理解智能。

总结:创业者和AI从业者可以从Reflection AI学到什么?

Reflection AI 的故事,不只是两位 DeepMind 研究员创业,也是一套关于下一代 AI 产品的判断框架。
第一,LLM解决了智能的广度,但没有解决深度。
大语言模型几乎什么都能回答,但还不能像同事一样稳定完成复杂工作。
第二,强化学习的价值,是让系统从行动和反馈中持续变强。
在奖励明确的系统里,强化学习已经证明可以产生超人类能力。Reflection AI 认为,后训练阶段的强化学习还有巨大空间。
第三,超级智能可能先在“尖峰能力”里出现,而不是所有领域同时出现。
模型能力并不平均分布。代码是目前 LLM 最强、也是最适合机器操作的领域之一。
第四,代码是语言模型最自然的计算机界面。
GUI 是为人设计的,代码更适合语言模型。未来很多软件交互,可能会在底层变成模型通过代码完成任务。
第五,客户要的不是模型,而是系统。
Reflection AI 明确认为,产品不是模型本身,而是模型与产品结合后,能否可靠解决客户问题。
第六,自主编程Agent的核心指标是可靠性。
真正有价值的 coding agent,不是偶尔写出一段好代码,而是能在明确边界内稳定完成端到端工程任务。
第七,不要一开始承诺无所不能,要先定义能力边界。
Waymo 的地理围栏类比很重要。软件 Agent 也可以先在确定范围内做到强保证,再逐步扩大边界。
第八,AI创业不能只拼模型,也要拼工程和环境。
Reflection AI 认为,算法重要,但如何可扩展地使用算力、如何设计训练环境、如何让 Agent 在环境里学习,同样关键。
第九,现在不必等到理论完全成熟。
就像早期蒸汽机先于热力学理论出现一样,今天的 AI 也可以在理论尚未完全清晰时,先构建可靠系统。
Reflection AI 的核心判断可以浓缩成一句话:
语言模型给了我们通用智能的雏形,强化学习可能让它真正学会行动,而代码会是超级智能最先落地的战场。

没有评论:

发表评论

Veryfb全球招商:跨境工具/虚拟卡/开户代理商 精准触达付费投手

Veryfb面向全球优质跨境工具、虚拟卡严选卡商及广告平台官方授权开户代理商开放招商入驻。社区汇聚十万级操盘手,月访超13万,日活8000+,提供“Veryfb认证”品牌背书与严格审核。入驻需通过企业资质或个人实名认证,产品真实有效,接受投诉处理机制,对违规0容忍。详情咨询客服。...