RL + LLM 升级之路的四层阶梯。

2025 年伊始，RL 以一种破局归来的姿态在 LLM 的后训练时代证明了其巨大价值，Sutton 和 Barto 拿了图灵奖，David Silver 去年在 RLC 上说 “（RL 受关注的程度）终将跨越 LLM 带来的低谷”，竟然来得如此之快。

PhD 这些年即将告一段落，这几个月梳理先前的工作，准备 Tutorial，借鉴了不少去年从 RLC 上听 David Silver 讲过的思想，在这个 “RL Finally Generalizes (Shunyu Yao)” 的时代到来之际，也一直想写一篇文章作为整理，恰好最近读 Silver 和 Sutton 一起写的《经验时代》(Welcome to the era of experience)，结合了一些自己的思考和理解，在出发开会前写下这篇文章，抛砖引玉，希望在新加坡可以和大家有更多的深度交流【关于 RL，Alignment，Reasoning，Agent，MCP，以及其他有关 AGI 的一切！】

RLxLLM 的当下成功归于 Inverse RL 和 Data-Driven Reward Models

RL 和 LLM 分别强在哪里？
#

距离 AlphaGo 击败李世石已经快有十年，这期间 RL 征服了各种棋类游戏，即时策略游戏，也被应用到了各种系统的性能优化当中。在这些任务中，RL 总能找到比人类专家更好的策略，它能将优化做到极致。也有在持续训练中不断提升的潜力。RL 找到的策略和解决方案，可以给人类专家带来启发 —— 虽然这并不容易。一个著名的例子是 AlphaGo 的 “Move 37”，它被当作 “RL 具有创造力” 的验证。

另一方面，数据驱动的生成模型在更好的架构，更稳定的优化器，更强的算力，更科学的算法，种种 buff 加持之下不断朝着 scaling law 的前沿推进。如今包括 Sora，StableDiffusion，GPT 在内的这些模型已经可以很好地理解用户，按照指令生成能让用户满意（甚至惊喜）的文字，图片，和视频。

然而，世界上的数据总量是有限的，即使 Scaling Law 总是成立，数据也迟早会枯竭。数据驱动的生成模型虽然有诸多优势 —— 比如在小样本上极强的泛化能力，强大的指令跟随能力，以及自然语言模型天然的可解释性 —— 然而这些模型不具备 RL 系统所拥有的创造力，持续进步提升的能力，和纠错的能力，也无法超越人类的专家水平。

RL + LLM?
#

那么，有没有可能有一个系统，它可以和 Data-Driven 的大模型一样去理解、帮助人，同时又可以不断迭代更新自己，纠错和变强呢？

从 LLM4RL 的角度来说，如果我们能用 LLM 实现 super-human performance，那么用自然语言为媒介可以更加容易地把这些 RL 系统的创造力用来启发人类。
从 RL4LLM 的角度来说，RL 可以赋予 LLM 不断提升（由 Reward 定义的任务上性能）的能力。如果把 Alignment 和 Post-train 统一地定义为提升特定方向的能力，那 post-train/alignment 的优化方向本身就是和 RL 这一学习范式非常契合的。

在数学领域，去年 AlphaProof+Alpha Geometry2 拿了 IMO 的银牌，今年 DeepSeek R1 的风已经席卷了全世界；在通用聊天领域，RLHF 里如火如荼的_PO 研究已经即将用尽字母表，庞大的用户规模加上 preference 标注为 OpenAI 提供了源源不断建模用户偏好，改进用户体验的数据。这些都是 RL + LLM 的成功。那么，如果想要把 RL + LLM 这一范式推广到更多的场景，我们面临的困难是什么？比较有潜力的解决方案是什么？这正是我们之前的 Tutorial 希望重点向大家介绍的 —— 当前的 LLM Alignment 是一种 数据驱动（人类经验驱动） 的 RL，Inverse RL 是这里最自然和简单的方案。

LLM 从人类生成的数据或反馈中学习 —— 也就是 Silver&Sutton 文章里所说的 “Human-Centered AI”。过去两年我参与的 IRLxLLM 的研究也围绕着 “如何从不同数据中构建更好的奖励模型” 进行探索 [^1]。

既然是探索，当然不该止步于 “什么方案最简单，最自然”，也要想未来进一步优化的方向在哪里。

人类如何学习？
#

相比 LLM，人类的学习似乎 “容易” 很多，人类不需要也不可能看完所有的书，电视，电影，不会去过所有的地方，但一样可以拥有（更）高程度的智能 —— 可以理解世界，推理，创造，交流，学习。人先在成长初期通过语言学习，交互，理解；同时通过和世界的简单交互了解非常简单的 “物理”(world model, laws)；后来习得书写和文字，又在游戏 / 虚拟世界中学习，学会从互联网上主动寻找有用的信息，最终通过和世界以及社会的交互不断提升能力。我想这恰好可以对应 LLM+RL 发展的四个不同阶段：Data-Driven，Game， Virtual Interaction，Physical Interaction。（人类在学习过程中，除了幼儿时期学语言几乎严格早于其他三者，剩下的学习过程是持续，同步发生的，这里的层级递进关系不一定成立。从 LLM -> AGI 的角度，分成这几层主要是考虑到实现起来的困难程度和安全可控程度。）

当下，主流的方法站在 AGI 的第一层：通过 Data-Driven Reward Model + RL 提升任务性能，接下来我们从这一层开始聊起。

第一层：【Data-Driven RL】(Human-Centered) RL with Data-Driven Reward Model
#

如何理解当下 Post-Training 中的 RL？
#

RL 是什么

从 RL 的基础谈起 —— 从统计的角度，RL 研究的是如何在动态变化的数据分布中主动学习并建模（包括策略建模和环境建模，有前者可以 Black-box policy inference，有后者可以做 planning）；用更 RL 一点的语言描述，就是如何在和环境的交互中找到长期回报最高的策略。

解决思路上来说，不同的方法都在尝试于探索和利用之间找到平衡（无论是对环境 / Dynamics 的探索还是对策略的探索）。从这个角度出发，也可以理解为什么没有某种探索策略或者学习方法总是好的 —— 对于任何的探索策略，总能针对它设计 counter example，使得这种探索方法不是最优。而随机性是应对 counter example 设计的强有力工具。这也是为什么 MaxEntropy 类方法总是拿一个 random policy 的 KL 保持探索，且这一类方法总是在各种环境中都不太差的原因。

RL 优化 “长期回报”，这意味着首先要定义什么是回报 (Reward)，在大多数任务中，没有这样的 Reward。所以我们无法做到从 “和环境交互中优化策略”，而只能让 LLM 从人类的语言数据中学习，也就是从行为中学习。方法上分为两大类：(1) 模仿学习 (Imitation Learning)—— 比如 Behavior Clone，就是直接对着行为做监督学习，来生成与行为数据相同的行为模式；(2) 逆强化学习 (Inverse Reinforcement Learning)—— 先通过行为数据找到这些行为在尝试优化的奖励函数，然后用这个奖励函数做 RL 来生成与行为数据相同的行为模式。

Post-Train 在做什么

(1). [Behavior Clone] 先从 Pre-train 说起，Pre-train model 的任务是预测下一个 token，也就是非常经典的 Behavior Clone，模仿人类的语料库。随着训练规模的扩大，模型各方面的能力不断提升，开始有能力理解比字面意更深层的语义，学会更能泛化更加有效的 embedding 模式，并且在新的任务上有了 few-shot 甚至 zero-shot 的能力。

(2). [Prompt Engineering] Post-train 阶段，我们从最简单的 prompt-optimization（或者 in-context learning）说起。因为这些 Autoregressive LLM 都是 Conditional Generator，随着输入的变化，输出 token 的条件概率和分布也会随之变化。因此，通过控制输入的样本，甚至是问问题的方式，都可以让模型在特定任务上达到更好的表现。这个方向在 2023 年是比较热的话题，后来的趋势是随着模型能力的提升，prompt optimization 的边际效应过于明显，并且大家意识到对着某一个 LLM 做 prompt engineering 很大概率是在 overfit test set，到下一个迭代的版本就又要重新找，与此同时 “lazy prompting (Andrew Ng)” 的效果也越来越好，工程上也需要在成本和性能之间进行更好的权衡。

(3). [Supervised Fine-Tuning] 接下来，如果我们有一些高质量的垂类数据或专家数据，在这个小规模数据集上进行监督微调 Supervised Fine Tuning 效果也可能会不错，且这个过程简单稳定，非常适合资源有限，数据质量高，任务对 LLM 基模来说相对简单，并不追求极致的性能改进的场景。

总结来看，Post-train 的总体目标是通过少量的高质量样本，来调整基座模型生成回答的数据分布，使之适应新的任务或特定的某类由样本特性所定义的任务。BC 和 SFT 是直接的模仿学习手段，而 Prompt-Engineering 很有一种 Prior-hacking 的味道，我们姑且把它也归为一种对 “成功 prior hacking 经验的模仿”。最近一年里有很多工作讲了 SFT 和 RL (HF) 分别在做什么，有很多种含义相近的描述，比如 SFT 负责记忆，RL 负责泛化，SFT 做 mass-covering，RL 做 Mode-Seeking。接下来，我们通过三个例子来看为什么有了 SFT/Prompt-Engineering 这些简单有效的方法，还需要 RL，或者说需要 Reward Model。

为什么用 Inverse RL 来解决 Data-Driven RL？
#

Inverse-RL 中的重要一步是通过数据建模 Reward Model，从而使不完整的 MDP\R 问题转化为完整的 MDP，进而能够调用 RL 工具去解决。我们把这里从人类行为数据出发，建模奖励函数的过程称为 (Neural) Reward Modeling，这是现阶段的主流做法，也是 Silver 和 Sutton 在文章中提到的 Human-Centered AI。我们通过以下三个例子来理解 Reward Model 的作用与优势

Inverse RL (Reward Models) 可以收集更加规模化的数据

这里举 ChatGPT 的例子 —— 当我们使用 GPT 的时候，会遇到让我们提供 preference，帮助 OpenAI 提供未来模型的选项，这件事能大规模应用的主要原因是 Preference 这个判别任务远比 demonstration 的生成任务更加容易和可拓展。我们能欣赏顶级网球选手打球，看谷爱凌苏翊鸣飞台子看 FWT，不需要我们自身有很高的运动水平

Inverse RL (Reward Models) 可以帮助找到更有泛化能力的解决方案

在 DeepSeek R1 的数学任务中，Rule-based (Data-Driven) reward model 给了 LLM 最大限度的自由度去探索有可能能够成功的回答问题模式，这种自由度允许模型自己去发现 “long chain-of-thought” 这种行为可以有效提升回答正确的可能，进而把最能够泛化的做题能力保持住。这里 (Outcome) RM 是因，找到可泛化的 pattern 是果，具体如何更高效率地 exploration，或者学这些发现的 pattern，是因果之间的媒介 —— 它会影响学习效率，但不会影响 “能不能学”。

Inverse RL (Reward Models) 是 Inference Time Optimization 的基础

正如文章一开始所说，在普通的 RL 任务中，没有 “Inference-Time” 和 “Training-Time” 的区别，大多数 RL 都是在测试任务上训练的。所以大多数 RL Policy 解决任务的方式就是训练完了之后部署在这个系统上做 Inference，每次生成 action 只需要 Network Forward 一把，也谈不上 Inference Time Optimization（比如 Mujoco/Atari 都是这样的任务）。然而，在围棋任务中，目前还没有每一步直接做一次 Neural Network Inference 就能击败人类顶级选手的 RL Policy，需要这些 Policy Network 配合 Value Network 做 MCTS 才能取得较好的效果。在这个过程中，value network 扮演的决策就是一个 “dense reward function”，能够在 inference 过程中把不好的 action 过滤掉。

同理，Reward Model 在困难的 LLM 任务中也可以扮演 Inference-time 过滤器的角色，它总能和已有的 post-train 方法相结合，进一步提升 LLM 生成的质量。

为什么关注 Inverse (Reward Model) 部分而不是 Forward (Policy Optimization) 部分
#

首先，准确的 evaluation 是一切算法改进的根基。Online RL 的工具库里有很多工具，但这些工具能用的前提是有一个靠谱的 Reward Model。找到问题出在哪是研究的第一步，如果 Reward Model 没有研究清楚，在第二阶段各种 RL 算法如此难收敛，超参如此之多又如此敏感，LLM 的训练又如此之慢的前提下，对着不靠谱的 Reward Model 做优化，得到的实验观察很难总结出可信的结论（更别提有人不到 10 个数据点取完 log 都 fit 不好也起名叫 scaling law 了）。

此外，RL 领域无数任务中的经验告诉我们，RL 里没有 Silver Bullet，最重要的是理解任务的特点，并根据任务（数据，奖励性质，系统性质，算力约束）去优化相应的算法。DPO 和 GRPO 的成功不是因为它们是 LLM 时代的策略优化万金油，而是因为它们找到了先前系统中存在的问题（冗余），根据任务的需求和硬件进行了优化。

为什么 Reasoning 是这一层里最重要 (和目前为止最成功) 的任务
#

首先是观察：Reasoning task 确实可以提升模型 “聪明” 的程度，跟随用户指令，完成任务和解决问题的能力，在数学上训出来的模型，整体能力都提升了。

其次是动机：如果能够真的让 LLM reasoning 起来，行为上具有想的越久，正确率越高的能力，那么这个系统兴许真的可以自举起来。数学家不断推理就有可能发现新的定理，提出新的问题，或是在解决问题的方向上取得进展。不过话说回来，用没有这种能力的模型尝试达到 “左脚踩右脚原地起飞” 的效果，并且用 “左脚踩右脚原地起飞” 宣传工作，或许有点不太合适。。

第二层：【Game】Experience from Games and Rule-based Tasks
#

在第一层，我们知道通过人类的经验，反馈，或是人工生成的题库来建立奖励模型，可以把 LLM Post-Train 这个缺失了 Reward Function 的 MDP\R 问题转化成完整的 MDP 问题。这种数据驱动的方式廉价，可规模化，在数学任务上优化过后取得了非常好的优化泛化性，显著提升了模型的通用能力。但是但凡是有限样本拟合的奖励函数，都会有过拟合的风险，只是不同的模型，不同规模的数据，不同的任务，这种过拟合的风险不同罢了。Reward Model 的过拟合带来的后果是 Reward Hacking，也就是朝着背离 Reward 设计初衷的方向狂奔，比如 helpful 这个任务里一个经典的 reward hacking 是 “length bias”—— 模型不管说的话有没有用，发现说的越多分数越高，就可劲输出废话。

短期来看，我们可以想办法在有限的范围内缓解 Reward hacking，就像这一路 data-driven 的科研模式中大家通过各种方式减少 overfit，提升模型的泛化性一样。但是长期来看，这种发展不符合数据 x 算力这种更加可预测的扩张模式 —— 在所有有可能的改进中，算法的改进可能是最难预测的（天不生 Sutton，RL 如长夜）

那么，除了数学，还有什么任务是或许可以突破数据瓶颈，增强模型能力的呢？回想人类幼崽的学习过程，从小时候学会了语言之后，首先接触的是游戏！技术上来讲，游戏往往是定义良好的完整 MDP，十几年前我们用游戏训练了 DeepRL 算法，那如果 DeepRL 算法运行在 LLM 上呢？

我们的终极目标是通过在环境中进行无穷多次的尝试探索，让 LLM 不断提升自己的理解 / 推理 / 规划 / 指令跟随能力。游戏恰好提供了这样的（廉价模拟）环境 —— 想要在游戏中取胜，需要首先理解其规则，进而在规则限定的范围内对策略进行优化。这里的游戏包括文字为基础的辩论 / 讨论类型的游戏，规则更为明确的棋牌类游戏，以及其他更一般的 3D 类型游戏。其中文字 / 辩论类游戏的胜负判断相对困难，但输入输出空间最适用于语言模型。棋牌类游戏虽然可行，但输入输出空间的表征适配或许是一个较大的挑战。更复杂一些的游戏虽然可行，但现在 LLM 包括 VLM 的能力可能距离玩好这些游戏太远了，找到合适的 curriculum 和任务是重要的问题。从去年下半年开始 ^*[3]，我们陆续看到了这个方向的尝试，包括简单的 Atari，贪吃蛇类型游戏，3D，Text-based game，未来可期，但也有诸多亟待解决的问题：

什么样的任务最适合评估 LLM 的能力？如何避免 text-based game 中的 cheating？
怎样找到 LLM 处理输入输出，理解游戏的最佳表示？
什么样的游戏可以最全面地发展 LLM 个方面的能力（而不至于让 LLM “玩物丧志” overfit 到游戏）
游戏中取得的进展是否可以像数学一样带来全面的能力提升？
如果允许调用 Tool（比如 AlphaGo 的 value function 或者 GTO 软件），LLM 还能（需要）在这个过程中学会推理吗，学会造轮子更重要还是使用轮子更重要
这里是否会有一个对应的 game supremacy scaling law 之类的东西存在？游戏提升 LLM 推理能力的上限在哪里

解决了这些问题之后，大规模上 Self-Play，突破目前的数据局限，提升 LLM 的推理能力就只剩下算力问题。

第三层：【Virtual Experience】“Experience” in the Virtual World
#

在过去两年做 Alignment 研究的过程中，一直很想做但又没有合适机会的方向是 Agent——Agent 是一个非常面向产品 / 用户 / 落地的课题，工程上的优化，用户的反馈，活跃开发社群的建设和维护都十分重要。除此之外，即使可以在研究中尽可能地将基座模型的能力和框架以及学习范式二者分离，基座模型的能力提升往往可以直接带来质变。

至于非技术上的问题，例如早期大家担心的适配与权限问题，目前看来在 MCP 到来以后都不再是重点。除非数据的拥有者能做到垄断，不然市场的反向选择一定会让数据的拥有者对 Agent 更加开放。当然，一切的前提都是 Agent 背后有足量用户的支持，Agent 足够强大和有用。从这个角度看，Agent 时代做内容和社交，或许能带来洗牌的机会。Agent 时代很或许会有新的微信。

从 RL 的角度，Agent 时代也有更多的机遇和挑战：

首先，Agent 与虚拟世界（互联网中的内容）进行交互，完成 “任务”。所以其实 Agent 相比 LLM 的变化，重点不在于加了几个 prompt，引入了工作流，而是增加了很多它们和非语言系统交互的可能性。有交互就会有反馈，这些反馈信息是一手的，真实的，on-policy 的，用 Silver 和 Sutton 的话说就是它们自己的 Experience。

在这个交互过程中，用户可以定义无穷多的任务，并且提供任务是否成功的反馈。相比在游戏中进行 self-play，直接和用户打交道的 Agent 所参与的场景和用户的日常需求高度对齐，不太需要担心能力提升的泛化问题。通过用户众包形式的反馈，提升 Agent 的能力就像是在培养具有专业技能的劳动者。

更重要的是，Agent 达成目标这个任务属于 RL 中的 Multi-Goal 问题，Multi-Goal 最大的特点就是很方便从失败的经验中学习 (Hindsight Methods)。举个例子，LLM 做数学题的时候，一道题做错了，生成的错误答案只能通过 “反思，纠错”，来帮助 LLM 以后在类似的题上不犯同样的错误 —— 但是它很有可能会犯别的错误。这里失败的经验只能被拿来做排除法，从失败中学习难就难在失败的可能千千万，成功的路径相比之下要稀缺很多。所以数学就不是一个很好的 “multi-goal” 的例子 —— 没有人会把 “做错这道题” 当成一个有效的目标。

再来看 Agent 达成目标这个任务，如果我让 Agent 帮我【订一张从北京到上海的火车票】，结果 Agent 一通操作，帮我买了一张从北京到深圳的机票，我们会认为这个任务失败了，但是这个失败的经验只是对于原始的目标失败了，如果有一天我想从北京去深圳，这次 Agent 的失败经验是很有用的，只需要更改这次失败经验的目标，就可以让 Agent 的 Experience 中有【订一张从北京到深圳的机票】这个目标应该如何达成这一条，对着成功的案例学习，效率自然会比用排除法高很多。

在这些机遇背后，很多技术问题的答案也让人充满好奇 ——

可以规模化的持续学习的能力如何注入，范式是什么
RL 会有 plasticity vanishment 的问题，GPT 系列模型做 Supervised Learning 的 scaling law 到了 RL 还是否存在？
大规模的 Agent Learning 是工程和算力的双重挑战。人类社会是多元的，Agent 更像是人类社会中承担不同工作的员工们，人类的多元化和不同的天赋让分工更加明确，并且持续积累经验，不断提升专业化的程度和业务能力。用 Prompt 给 Agent 注入的 Diversity 或许帮助有限，用 Fine-tuning 甚至不同的 pretrain model 又难以支撑。
Agentic Personalization 是必然的趋势，但端侧友好的轻量化实现目前并没有好的方案。对齐和监管要求这个过程必然是中心化进行的，如果要用目前的技术手段做到这个规模的中心化，英伟达的卡是不是需要普及到人手一块。

第四层：【Physical Experience】“Experience” in the Physical World
#

最近两年机器人和具身智能再度火热，早期做 RL 方向的同学可能大多都对这个方向有着比较深的感情，robot control、mujoco 应该是当年开始 RL 的时候大家最先接触的任务。能够和物理世界做真实交互的机器人一定是未来，但是硬件和伦理是两大绕不开的挑战。硬件的成本会随着技术的进步不断降低，但风险和伦理问题一眼还需要更多思考。

硬件方面，2020 年和朋友一起琢磨过面向发烧友的手工出海，做过一条非常简易的 “四足机器 (狗？)”。元件就是几个电机，树莓派，四条腿是一次性筷子做的，拍脑袋写了个声控往前爬往后爬的运动模式。然而出师未捷，内忧外患一起出现 —— 贸易战升级，小米也出了一款价格四位数的消费级器狗。对比过后发现硬件这个东西不比服务或者互联网，一分价格一分货，且重资产轻技术，十几二十块的电机就是做不到精准有力的操控，力度不够就是没办法后空翻，这个产品或许只能卖给发烧友搞着玩，价格也不便宜，后来就不了了之了。

更现实一些，距离我们生活最近的场景是智能 (辅助) 驾驶，在这个场景里，车是市场上存在的刚醒需求，客户不会因为智能的 “具身” 支付太多额外的硬件成本。车作为智能的载体，能执行的动作也比较有限，更加可控。即使在这样的 Embodied AI 系统里 —— 我们多大程度上可以接受自己的车一边开一边学，增强推理和理解场景的能力？多大程度上可以接受它犯错？谁来承担系统的错误。

人的分工和相互信任建立在长时间的社会稳定和协作共赢之上，但人和机器如何做到互信，要花多久？当智能能够通过具身或者物理世界的载体和人交互，就不可避免会带来伦理问题，包括我在内的大多数的技术 / 科研工作者对此可能都一无所知，这里也就不多做讨论。可以确定的是，AGI 时代会有更多的挑战，关于 AI Safety 的探讨也会更加迫切，当 Agent 有有了无限探索的能力和物理世界做交互的时候，碳基文明的存亡也有了实实在在的威胁。

在 AGI 的前夜，人类更加需要伟大哲学家的指引

作者简介

孙浩是剑桥大学 4 年级在读博士生，研究课题为强化学习和大语言模型的对齐（后训练）。他关于强化学习的研究涵盖了稀疏奖励，奖励塑形，可解释性等课题，研究发表于 NeurIPS 会议；在关于大语言模型对齐的工作中，重点关注如何从数据中获得奖励函数，提升大模型在对话和数学上的能力，论文发表于 ICLR 会议，并参与贡献了 AAAI2025 和 ACL2025 的系列课程报告。

原文链接：https://zhuanlan.zhihu.com/p/1896382036689810197

[^1] 过去两年我参与的 IRLxLLM 的研究也围绕着 “如何从不同数据中构建更好的奖励模型” 进行探索

ICLR'24: RM for Math & Prompting;

ICML'24: Dense RM for RLHF;

RLC workshop'24: RM from Demonstration data;

DMRL'24: When is RM (off-policy-evaluation) useful?;

ICLR'25: foundation of RM from preference data;

Preprint (s)‘25: Active RM, Infra for Embedding-based Efficient RM Research, PCA for Diverse/Personalized RM)

[2] 关于未来方向的畅想，理解和思路上距离在 Agent 方向深耕的研究难免会有偏差，烦请大家不吝斧正！

[3] 更早一些在 2023 年底的 NeurIPS 就有一篇工作是讲外交类游戏博弈的，希望 LLM+Game 这个方向的未来不要步前几年的 RL + 阿瓦隆 / 狼人杀 /xx 游戏的后尘，而是在选择任务上多一些思考，做长期更有价值的探索！

生成式人工智能的首批“受害者”对其他企业的启示

2024.11.21·1402 字·3 分钟