我一直是开源大语言模型研究的死忠粉。开源研究最迷人的地方,就是它让不同的人可以在一个公司尝试过的想法上继续深挖,去把事情做得更好。
我一直是开源大语言模型研究的死忠粉。
开源研究最迷人的地方,就是它让不同的人可以在一个公司尝试过的想法上继续深挖,去把事情做得更好。
最近,DeepSeek 发布了一篇论文,讲的是他们用强化学习训练出了一款推理能力非常强的模型,能和 OpenAI 的 o1 模型硬刚。
更让我觉得惊喜的是:DeepSeek 的强化学习思路,适用范围远比你想的广。
如果你一开始不信我说的,没关系,我接下来会让你信服。
强化学习的狂潮
现在,强化学习(RL)已经成了大语言模型微调的"标配"了。
在 2025 年之前,它其实还不是主流选择,但自从 DeepSeek 那篇论文出来后,它的巨大潜力才真正被大家看到。
我猜你大概知道强化学习是干啥的吧,如果不太了解,可以随手搜一下相关介绍。以前我们常见的 RL 应用场景,不外乎是 机器人 和 游戏 AI。
强化学习的经典示意图。
但 RL 真正进入大语言模型的舞台,还是最近的事。
到底发生了什么变化?咱们一起看下去。
(这里说的主要是开源模型,像 OpenAI 这种公司肯定是保密自家的训练细节的。)
2024 年的时候,大语言模型的训练流程大概是这样的:
而 DeepSeek 的训练流程长这样:
强化学习和 SFT 的区别
强化学习和 SFT(监督微调)到底区别在哪?
SFT 是用标注好的数据去引导模型,而 RL 则是让模型自己去探索,每做出"好行为"就给奖励。
直观对比:左边是 SFT,右边是 RL。
那为什么说 RL 更强?
- RL 更能泛化。
无论喂给它什么数据,它都会学到一些通用的策略,而不是死记硬背。 - SFT 容易死记硬背。
它往往只能记住训练集里的内容,超出范围就答不上来了。
下面我用两个例子,讲讲 RL 是怎么做到泛化的。
1. 数学题和编程题训练模型
假如你有一堆数学题和编程题,你希望训练出一个擅长推理的大语言模型。
你会先搭好一个 RL 训练循环,把这些题目喂给模型,看它的答案,然后奖励正确的回答。
- 数学题
:最终答案对上了,就给奖励。
最后的答案框可以直接用计算器对比。
- 编程题
:写出的代码跑通所有测试用例,就给奖励。
像 LeetCode 一样跑测试用例。
模型拿到奖励后,会不断调整自己的策略,努力争取更多长期奖励。推理能力,就是在这个过程中被强化的。
这就是 DeepSeek 当时的做法。
2. 用骑士与骗子的逻辑谜题训练模型
我们换个题型,不用数学题和编程题,而是逻辑谜题。
想象你到了一个岛上,这里的人只有两种:
骑士:永远说真话
骗子:永远说假话
现在岛上有 Alice 和 Bob,你要判断谁是骑士谁是骗子。
Alice 说:"我们两个都是骗子。"
那么怎么推理呢?
如果 Alice 是骑士,那她说的就得是真的,可"我们都是骗子"这句话如果是真的,那她自己就是骗子,矛盾了。 如果 Alice 是骗子,那她说的就是假的,所以"不可能我们俩都是骗子",那就说明 Bob 是骑士。
所以答案就是:Alice 是骗子,Bob 是骑士。
你可以把谜题复杂化,加入更多人物,每个人说一堆话,让模型去解。
比如这个:
最后答案是:Alex(骑士),Bella(骗子),Charlie(骑士),Diana(骗子)。
我们把这种题喂给模型,让它靠推理找答案。如果模型的答案和预先算法算出来的一致,就给奖励。
奖励的确定方式:黑盒算法先算出正确答案。
效果
用 RL 训练后,模型推理能力整体提升,而且数学题成绩也更好了。这说明 RL 确实能 泛化。 如果只是用 SFT,它只会在训练集上表现好,但推理能力没质的飞跃,纯粹在 背答案。
让 RL 训练更有效的几招
1. 分阶段学习(Curriculum learning)
这招其实和教学生是一样的。
一开始给简单题,让学生(模型)自己想办法解出来,然后再慢慢加难度。这样学得更稳,遇到新题也不怕。
训练过程中题目难度逐步升级。
比如做骑士骗子题,先两个人物,慢慢加到四个人物、多条语句。
研究表明,这种分阶段训练,比乱序出题效果好多了。
2. 冷启动(Cold start)
没冷启动时,模型一开始啥也不懂,RL 训练会卡在尴尬期,试一堆无效策略,浪费时间。
红线就是没冷启动的训练效果,前期卡壳明显。
冷启动就是先用 SFT 教它一些基本套路,给它一个起点,再让它靠 RL 自己探索。
蓝线是用了冷启动之后,省掉了前期摸索阶段。
冷启动的主要目的,就是让训练别那么慢。不过这招对最终效果有没有决定性提升,还有争议。
最后想说的
说到底,DeepSeek 的这一套方法,真比很多人想的要有潜力。强化学习展示了模型学到 元技能 的可能性,不再只是刷题型、记答案,而是真正掌握了解题思路。
我聊了 RL 怎么泛化、用什么数据集训练能提升模型推理能力,还有两种提升训练效率的小技巧。
这块领域其实还在起步阶段,机会多得是。如果你也感兴趣,今年不妨一起来入坑。
专注搞钱与健康 | "欢迎关注、点赞、分享"
爆料 / 交流 / 合作:请加微信 ifloop
若群满:请加微信 ifloop(备注加群)
推荐阅读
没有评论:
发表评论