周志华团队新作:LLM不再需要奖励模型?我们已经"预训练"了它!首次理论证明RL对LLM有效性

过去,大语言模型(Large Language Models, LLMs)的对齐依赖一个关键组件:奖励模型(Reward Model)。奖励模型通常基于昂贵的人类偏好数据(human preference data)训练,用于指导强化学习(Reinforcement Learning, RL)以优化最终策略。

尽管这一范式有效,但其高昂的成本和低扩展性限制了实用性。

本文提出了一个颠覆性的发现:任何通过下一个 token 预测(next-token prediction)训练的语言模型,其内部已隐含一个通用奖励函数(Generalist Reward Function)。作者将其称为内生奖励Endogenous Reward),并证明该函数在理论上等价于由离线逆强化学习(Offline Inverse Reinforcement Learning, Offline IRL)推导出的奖励函数。

更进一步,论文首次从理论上证明:利用内生奖励进行强化学习能够显著减少模仿学习中的误差累积(compounding error),使策略误差从 O(H²) 降为 O(H),提升了泛化性能与收敛稳定性。

令人惊讶的是,实验表明该方法不仅优于 LLM-as-a-Judge 框架,甚至超过了显式训练的奖励模型(explicitly trained reward models)在多个基准任务上的表现。

这一发现预示着未来的 LLM 对齐流程可以省略独立的奖励建模阶段,转向一种更加高效、可控、可扩展的新范式。

  • 标题Generalist Reward Models: Found Inside Large Language Models
  • 作者Yi-Chen Li*, Tian Xu*, Yang Yu†, Xuqin Zhang, Xiong-Hui Chen, Zhongxiang Ling, Ningjing Chao, Lei Yuan, Zhi-Hua Zhou*Equal contribution;†Corresponding author
  • 机构:南京大学人工智能学院(School of Artificial Intelligence, Nanjing University)国家重点实验室(National Key Laboratory for Novel Software Technology)
  • 时间2025年6月(arXiv 预印本)arXiv 链接https://arxiv.org/abs/2506.23235
  • 关键词
  • Endogenous Reward(内生奖励)
  • Inverse Reinforcement Learning, IRL(逆强化学习)
  • Reinforcement Learning from Human Feedback, RLHF(人类反馈强化学习)
  • Reinforcement Learning from AI Feedback, RLAIF(AI反馈强化学习)
  • LLM Alignment(大模型对齐)
  • Logits as Q-function(将 logits 看作 Q 函数)
  • Policy Improvement Bound(策略改进误差界)
  • Generalist Reward Models(通用型奖励模型)

随着大语言模型(LLM)的能力不断增强,一个核心挑战也愈发突出:如何让模型不仅能说,还能“说得对”“说得好”。为此,当前主流的对齐方法是 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF),其基本流程包括三步:首先对模型进行监督微调(SFT),然后训练一个奖励模型(Reward Model, RM)来判断回答的好坏,最后用该奖励信号指导强化学习,优化模型策略。

在这个过程中,奖励模型扮演着至关重要的角色。它是模型“判断力”的来源,也是 RLHF 成败的关键。然而,构建一个高质量的奖励模型非常昂贵。它需要大量人工标注的偏好数据,即让人类对多个候选回答进行成对比较,告诉模型哪一个更好。这不仅成本高昂、效率低下,还难以适配多样化的用户需求。

为了解决这一问题,近期出现了 RLAIF(Reinforcement Learning from AI Feedback) 等新方法。RLAIF 的思路是用强大的大模型(如 GPT-4)代替人工标注,担任“AI 裁判”,为候选回答打分。这种方法在实践中大大降低了成本,但也引发了新的疑问:这些 AI 裁判的判断是否可靠?它们是否只是复制了自身训练数据中的偏见?更重要的是,这一过程缺乏坚实的理论支撑,仍属启发式探索。

为此,本文提出了一个全新的路径:奖励信号其实并不需要从外部获取,而是早已“潜藏”在语言模型本身之中。作者发现,任何通过下一个 token 预测(next-token prediction)训练的 LLM,其输出 logits 实际上就蕴含着一个具备理论意义的奖励函数。通过一定的公式变换,可以从 logits 中提取出一种称为“内生奖励(Endogenous Reward)”的信号,用于替代传统奖励模型。这一发现不仅节省了构建 RM 的成本,更首次建立了一个有理论支撑的奖励提取机制,为 LLM 对齐带来了全新思路。

本文的核心创新在于提出“内生奖励(Endogenous Reward)”这一概念,并从理论上证明,它可以作为语言模型内部自带的高质量奖励信号,替代传统的人工训练奖励模型。

作者从逆强化学习(Inverse Reinforcement Learning, IRL)的角度出发,发现语言模型的训练目标——即“预测下一个 token 的概率”(next-token prediction)——实际上就隐式等价于 IRL 中的 reward learning 过程。

更具体地说,语言模型的输出 logits 可以看作一个 Q 函数(行为的价值函数),再通过一个数学变换(soft Bellman 逆算子)即可还原出一个奖励函数。这意味着,只要模型是用标准的 next-token 目标训练的,我们就可以直接从它的输出中提取出奖励,完全不需要额外标注或训练。

这种奖励信号被称为“内生奖励”,具有如下特点:

来源于模型本身,无需额外监督;

具有可解释的结构,与行为概率、状态价值有关;

可以被用于对比答案、指导强化学习,具备实际应用能力。

除了提出方法,作者还提供了完整的理论分析,说明内生奖励不仅可行,而且在一定条件下具备更好的性能保证。

奖励误差分析论文证明,如果语言模型的策略(即生成概率分布)与专家行为接近,那么内生奖励导出的偏好判断也会非常准确,误差有严格上界。

策略性能分析相较于模仿学习(imitation learning),内生奖励结合强化学习能更快收敛。具体来说,模仿学习误差随任务长度呈二次增长,而强化学习误差只呈线性增长,理论上更稳更强。

可收敛性分析由于内生奖励是由模型当前策略计算得出,强化学习优化一轮后即达到最优,再继续迭代也不会有进一步提升,具有自然的收敛性。

这部分工作说明:我们不必再构建外部奖励模型,语言模型自己就能“评分”自己的输出。这一结果为未来低成本、高鲁棒性的对齐方法提供了坚实基础。

作者通过一系列实证研究,验证了内生奖励的有效性与应用潜力。实验设计围绕三个核心问题展开:

内生奖励是否具有与训练型奖励模型相当的判断能力?

它能否适应不同指令,实现偏好控制?

强化学习后模型的性能是否能实质提升?

 RM-Bench 基准数据集上,作者比较了内生奖励(EndoRM)与多个训练型和非训练型奖励模型的表现。实验采用统一的底层语言模型(Qwen2.5-7B-Instruct)以确保公平性。

结果表明,EndoRM 的整体准确率超过了所有对比模型,在聊天、代码、数学、安全性等任务上表现稳定,特别是在无需任何训练的前提下,优于多个训练代价高昂的奖励模型。

 Multifaceted-Bench 上,EndoRM 同样展现出良好的跨任务适应能力,准确识别了多种用户偏好设置下的优劣回答。

 Domain-Specific Preference(DSP)数据集中,作者测试了内生奖励的指令适应性。方法是:为模型提供不同领域的系统提示(如“你是学术评审员”“你是商业内容审核员”),并评估其在匹配领域的表现。

结果显示,不同指令下的 EndoRM 能够明显更好地判断该领域数据,准确率在交叉测试中呈现出清晰的对角线优势。这说明,内生奖励具备一定程度的“可提示性”,即可通过 prompt 控制其评估标准。

 

作者还在 MATH-lighteval 数据集上对 Qwen2.5-Math-7B 模型进行了基于内生奖励的强化学习微调。在五个数学推理子任务(AIME、AMC、Minerva、OlympiadBench、MATH-500)上进行测试。

结果显示,微调后的模型在所有子任务上均有性能提升,平均提高 5.8 个百分点。个别任务如 Minerva 提升幅度超过 10%。训练过程中未对奖励模型进行任何优化,仅使用 logits 推导出的内生奖励信号。

本文从理论与实验两个方面,提出并验证了一种无需外部监督信号的奖励建模方式。通过将语言模型的 logits 解释为 Q 函数,并结合逆强化学习的原理,作者构建出一种可直接从模型内部推导的“内生奖励”(Endogenous Reward)。

该方法具备以下特性:

  • 无需人工标注:不依赖偏好数据或外部评估器;
  • 免训练过程:可直接从现有语言模型中提取,无需额外模型优化;
  • 具备理论基础:与最大熵 IRL 目标一致,误差界限明确;
  • 适用于强化学习:在多个任务中提升模型性能,误差收敛性优于 imitation learning;
  • 支持指令调控:内生奖励在不同系统提示下可调整偏好方向,具备一定个性化能力。

尽管方法简单高效,作者也指出了一些待解决的问题:

  • 奖励函数完全来源于模型自身,可能会固化已有偏见;
  • 内生奖励只适用于一轮强化学习优化,无法迭代提升;
  • 理论分析主要基于 token-level 的语言生成,对多模态或复杂推理任务尚缺经验支持。

相比传统奖励建模方法,该机制展现出较好的解释性与工程灵活度。未来可结合稀疏人类反馈、策略聚合等方式进一步增强其稳定性和适应性,拓展其在跨任务和多模态场景下的应用边界。

注:文章来源于微信公众号《AI前沿速递》。

 

首页_07180934_815    行业新闻    周志华团队新作:LLM不再需要奖励模型?我们已经"预训练"了它!首次理论证明RL对LLM有效性
创建时间:2025-08-27
浏览量:0

请完善以下信息,获取完整案例资料!

联系电话 *

姓名

公司名称

意向方案选择
咨询问题 *