破解「长程智能体」RL锻炼难题腾讯提出RLVMR框架 2025-10-25 06:00 PP电子(中国区)官方网站
分享到:

  我们对 AGI 的终极等候,是一个可以或许思虑、决策的伙伴,而不是一个只会寻找捷径的「做题家」。RLVMR 的工做,恰是激励大模子从偶尔出现的能力,特定思维模式的强化,为建立更鲁棒、更高效、更可注释的通用智能体迈出了的一步。

  这一策略我们:正在锻炼高级智能体时,「先它若何思虑,再罢休让它去犯错成长」,可能是比单一锻炼范式更高效的径。

  RLVMR 的提出,为智能体锻炼带来了从「成果导向」到「过程导向」的范式改革。它证了然,通过对智能体「思虑过程」的间接建模取励,我们可以或许无效破解长程使命中的「低效摸索」取「泛化懦弱」两题。

  光有标签还不敷,RLVMR 设想了一套轻量级的验证法则,及时评估智能体的思虑质量,并赐与立即励。

  RLVMR 将「过程励」取最终的「使命成功励」相连系,通过策略梯度方式进行端到端优化。这使得智能体正在押求最终方针的同时,必需学会若何更伶俐、更高效地告竣方针。

  冷启动阶段(SFT):好像根本教育,让智能体先通过仿照进修,快速控制「规划」「反思」等元推理概念的根基表达体例。

  面临这些难题,腾讯混元 AI 数字人团队提出了RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards)框架。这项工做开创性地将认知科学中的「元认知」(即 「思虑本人的思虑」)理论引入 RL,通过励「好的思虑过程」而非仅仅励「好的成果」,初次实现了对智能体推理过程的端到端强化进修,成功处理了长程使命中的低效摸索取泛化难题。

  2。泛化懦弱难题:靠「蒙对」学会的策略缺乏逻辑根本,正在新使命面前不胜一击,难以实现实正的鲁棒性。

  此外,我们的方式锻炼出的智能体更「伶俐」,处理使命的径更间接,正在 ALFWorld 和 ScienceWorld 的 L2 复杂中,所需动做数最高削减 28。1%。此外,锻炼过程本身也辞别了「频频横跳」式的低效进修,速度更快、策略更不变,显著缓解了无效摸索问题。

  这项研究不只为长程智能体锻炼供给了新思,也为我们摸索能实正理解世界、应对未知的下一代 AI 带来了新的曙光。

  1。低效摸索难题:智能体容易陷入「无效内卷」,频频测验考试无意义的动做,锻炼成本高,推理效率低下。

  正在极具挑和性的 ALFWorld 和 ScienceWorld 两大长程使命基准上,RLVMR 展示了级的机能。颠末 RLVMR 锻炼的 7B 模子,正在难度最高、从未见过的使命(L2 泛化品级)上,成功率高达 83。6%,更证了然其强大的泛化能力。

  我们发觉,通过励「好的思虑过程」,RLVMR 帮帮智能体成立了一套通用的、不依赖于特定使命的「元问题处理框架」(若何规划、若何摸索、若何反思)。当面临新(L2)时,智能体挪用的不再是某个的「解题模板」,而是这套矫捷的「思维方」。

  保守 RL 智能体像一个静心刷题但从不复盘的学生,容易正在错误径上频频挣扎。RLVMR 的焦点贡献正在于了智能体「反思」(Reflecting)。

  本论文的次要做者来自腾讯混元 AI 数字人团队 (Tencent Hunyuan AI Digital Human)。该团队努力于打制「有智商、无情商、有温度的数字人」,旨正在为用户供给高度拟人、可相信的数字伙伴!

  尝试数据显示,引入「反思」机制后,智能体正在碰到坚苦时,不再是盲目沉试,而是可以或许自动识别问题、调整策略。这恰是其反复动做率大幅降低、使命成功率飙升的底子缘由。它了一个环节点:对于复杂使命,智能体若何从失败中进修,比纯真「喂」给它成功的经验更主要。

  RLVMR 采用了「冷启动 SFT + 强化进修 RL」的两阶段锻炼流程。这并非简单的流程拼接,而是一种合适认知纪律的「成长曲线」设想。

  这了一个主要猜想:实正的泛化能力,源自于对问题处理过程的深刻理解,而非对问题谜底的机械回忆。 RLVMR 恰是通往这条道的无效径。

  自从智能体(Agents)正朝着可以或许处置复杂长程使命(Long-Horizon Tasks)的通用智能(AGI)迈进,但很多研究者发觉了一个尴尬的现实:良多智能体虽然能完成使命,却像个「只会蒙谜底的学生」,而非实正高效、可泛化的推理能力。一旦稍做改变,它们便。

  这种「成果准确,但过程紊乱」的现象,是当前长程智能体(Long-Horizon Agents)强化进修(RL)范式的一大瓶颈。智能体正在摸索中,只因最终能完成使命便获得励,而其间大量的冗余操做、无效摸索,以至错误的推理径,都被无意中 「强化」 和固化。这导致了两个焦点难题。

  强化进修阶段(RL):好像进入社会实践,让智能体正在实正在中摸索,通过「过程励」的不竭反馈,将学到的概念内化正的能力。

  这种「过程励」机制,像一位贴身锻练,不竭指导智能体优化其思虑取决策径,从底子上杜绝「瞎蒙」行为。

  保守方式要么依赖的专家数据(SFT),要么依赖稀少的成果励(RL),都无法无效塑制智能体高质量的「思维习惯」。设想一套可验证、可优化的励机制。