百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

ccwgpt 2025-05-02 09:23 26 浏览 0 评论

允中 发自 凹非寺

量子位 | 公众号 QbitAI

抛弃替代损失函数,仅需优化原始目标, 强化学习新范式来了:

消除critic和reference模型,避免KL散度约束;解决优势函数和梯度估计两个偏差。

来自阿里-高德地图的团队提出了一种相当简单的强化学习训练新方法:组策略梯度优化GPG (Group Policy Gradient)

GPG开创性地从底层重构强化学习训练框架,仅需优化原始目标,解决已有方法偏差,提高训练效率。革新强化学习训练流程,推动智能体性能突破。

在实验中,GPG在单模态和多模态两类任务中表现遥遥领先,其极简架构高性能表现,有望成为下一代基础模型训练的关键方法。

以下是更多GPG有关细节。

一、背景介绍

近年来,以OpenAI和DeepSeek R1为代表的LLMs模型表现亮眼,深究成功背后,是强化微调技术(RFT)联合现有强化学习方法(如PPO、GPPO)在激励模型构建严谨的推理链上发挥了关键作用。

但在面对高昂的训练成本与性能平衡,主流方法PPO也陷入巨大瓶颈,与此同时,其他研究团队也在尝试使用ReMax、GRPO等简化训练流程,并在性能上取得了很大的突破,但他们都依然存在一些问题。

研究团队认为,当前针对RL算法的优化都在围绕替代损失函数展开,但两个核心问题始终悬而未决:

1.能否绕过替代策略,直接优化原始目标函数?
2.如何最大限度简化学习策略的设计?

由此,团队提出了GPG,其核心创新包括:

  • 直接目标优化:摒弃传统替代损失函数设计,直接优化原始强化学习目标,突破算法效率瓶颈。
  • 极简训练架构:无需评论模型和参考模型支持,摆脱分布约束,为模型扩展性提供更大空间。
  • 精准梯度估计技术 (AGE):首次揭示现有方法的奖励偏差问题,提出轻量化且高精度的梯度估计方案,显著提升策略稳定性。
  • 单模态多模态任务SOTA验证在数学推理、视觉理解、跨模态推理等任务中,GPG性能全面超越现有方法,验证其通用性与鲁棒性。

二、组策略梯度GPG方法

1)方法对比

各种强化学习方法的比较,作者以最简单的形式解释:

下面是GPG方法和已有RL方法各个模块的对比:

2)GPG方法

GPG旨在解决在没有价值模型的情况下,策略梯度估计中的高方差问题。通过利用group-level的奖励 ,GPG稳定了训练过程并增强了强化学习训练的鲁棒性。

具体而言,GPG利用每个Group内的平均奖励来归一化奖励,从而有效降低方差。这个方法可以移除传统的价值模型,从而简化了训练过程并提高了计算效率。 GPG的名称反映了作者方法核心机制,即利用group-level的平均奖励来稳定和优化学习。

GPG的核心优化目标定义为:

作者提出的GPG方法通过组内优势函数计算梯度校正机制实现了高效稳定的策略优化。在优势函数设计上,采用组内奖励均值归一化方法

其中可根据任务特性灵活选择std或保持为1,这种设计有效抑制了异常值干扰。对于数学推理等二元奖励场景(正确1.0/错误0.0),该方法展现出良好的适应性。

3)现有RL方法中的两个bias

优势函数中的bias

GRPO方法的优势函数中,,这部分是PG方法中的state部分,这表明GRPO优势函数明确引入了奖励偏差。DR.GRPO方法,但是作者发现它无法明显超过GRPO方法。见下表:

组内样本全对全错时,引入梯度估计的bias

当一个组内的样本,模型预测全对或全错则会引入对梯度估计的bias。给定批量大小为的训练批次,设第个样本的梯度表示为

不失一般性,假设批次中的前个模型输出的示例都正确或错误,标准反向传播(BP)算法估计梯度为:。然而,前个示例不适用于梯度估计,并贡献零梯度。

针对组内全对/全错样本的梯度估计bias问题,GPG创新性地引入动态梯度校正因子

。通过公式自动调节有效样本权重,其中为批次大小,为无效样本数。

实验表明该机制可使模型准确率从43.9%提升至47.8%,显著改善训练稳定性。

三、实验

1)在单模态数据集上的结果

2)在多模态数据集上的结果

四、结论

在本文中,作者介绍了GPG,它有效地解决了强化微调方法(如PPO和GRPO)中现有的关键挑战。

通过将基于组内的决策动态直接纳入标准的PG方法,GPG简化了训练过程,并显著减少了计算开销,而不削弱模型效果。这一突破为训练能够进行复杂推理的先进LLM提供了更高效的框架,从而为更具资源效率和可扩展性的人工智能系统做出了贡献。

此外,团队将本文代码全面开源,希望促进技术透明化发展,也鼓励更多人参与到该项工作中来。

论文链接:https://arxiv.org/pdf/2504.02546
代码链接:https://github.com/AMAP-ML/GPG

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关推荐

用Deepseek扩写土木工程毕业论文实操指南

用Deepseek扩写毕业论文实操指南一、前期准备整理现有论文初稿/提纲列清楚论文核心框架(背景、现状、意义、方法、数据、结论等)梳理好关键文献,明确核心技术路线二、Deepseek扩写核心思路...

985学霸亲授,DeepSeek也能绘6大科研图表,5分钟就出图

在实验数据处理中,高效可视化是每个科研人的必修课。传统绘图软件操作复杂、耗时费力,而智能工具DeepSeek的出现彻底改变了这一现状。本文将详解如何用DeepSeek一键生成六大科研常用图表,从思维导...

AI写论文刷屏?大学生正在丢掉的思考力

一、宿舍深夜:当论文变成"Ctrl+C+V"凌晨两点的大学宿舍,小王对着电脑屏幕叹气。本该三天前开始写的近代史论文,此刻还一片空白。他熟练打开某AI写作网站,输入"论五四运动的...

Grok在辅助论文写作上能不能既“聪明”又“可怕”?!

AcademicIdeas-学境思源AI初稿写作随着人工智能技术的飞速发展,论文写作这一学术任务正迎来新的助力。2025年2月18日,美国xAI公司推出了备受瞩目的Grok3模型,其创始人埃隆·...

大四论文沟通场景!音频转文字难题听脑AI来化解

大四学生都知道,写论文时和导师沟通修改意见,简直是“过关斩将”。电话、语音沟通完,想把导师说的修改方向、重点要求记下来,麻烦事儿可不少。手写记不全,用普通录音转文字工具,转完还得自己慢慢找重点,稍不注...

论文写作 | 技术路线图怎么画?(提供经典优秀模板参考)

技术路线图是一种图表或文字说明,用于描述研究目标、方法和实施计划。它展示了研究的整体框架和步骤,有助于读者理解研究的逻辑和进展。在课题及论文中,技术路线图是常见的一部分,甚至是一个类似心脏一样的中枢器...

25年信息系统项目管理师考试第2批论文题目写作建议思路框架

25年信息系统项目管理师考试第2批论文题目写作建议思路框架--马军老师

微信购物应尽快纳入法律框架(微信购物管辖)

符向军近日,甘肃省工商行政管理局发布《2016年上半年信息分析报告》。报告显示,微信网购纠纷迅猛增长,网络购物投诉呈上升趋势。投诉的主要问题有出售的商品质量不过关、消费者通过微信付款后对方不发货、购买...

泛珠三角区域网络媒体与腾讯微信签署《战略合作框架协议》

新海南客户端、南海网7月14日消息(记者任桐)7月14日上午,参加第四届泛珠三角区域合作网络媒体论坛的区域网络媒体负责人及嘉宾一行到腾讯微信总部座谈交流,并签署《战略合作框架协议》(以下简称《框架协...

离线使用、植入微信-看乐心Mambo手环如何打破框架

从2014年开始智能手环就成功进入人们的生活,至今已经演变出数据监测、信息推送、心率监测等诸多五花八门的功能,人们选择智能手环并不指望其能够改变身体健康情况,更多的是通过数据来正视自身运动情况和身体健...

微信私域电商运营策略与框架(微信私域怎么做)

...

华专网络:如何零基础制作一个网站出来?

#如何零基础制作一个网站出来?#你是不是觉得网站建设很复杂,觉得自己是小白,需求不明确、流程搞不懂、怕被外包公司坑……这些问题我都懂!今天华专网络就用大白话给你捋清楚建站的全流程,让你轻松get网站制...

WAIC2024丨明日上午9点,不见不散!共同探讨智能社会与全球治理框架

大咖云集,硕果闪耀WAIC2024世界人工智能大会智能社会论坛将于7月5日9:00-12:00与你相约直播间WAIC2024上海杨浦同济大学哔哩哔哩多平台同步直播探讨智能社会与全球治理框架WAIC...

约基奇:森林狼换来戈贝尔时大家都在嘲笑 他们的阵容框架很不错

直播吧5月4日讯西部季后赛半决赛,掘金将迎战森林狼,约基奇赛前接受采访。约基奇说道:“当蒂姆-康纳利(森林狼总经理、前掘金总经理&曾选中约基奇)做了那笔交易(换来戈贝尔)时,每个人都在嘲笑他...

视频号带货为什么一个流量都没有?顶级分析框架送给你

视频号带货为什么一个流量都没有?遇到问题,一定是步步来分析内容,视频号带货一个流量都没有,用另外一个意思来讲,就可以说是零播放。为什么视频号带货一个流量都没有?跟你说再多,都不如来个分析框架。1、是否...

取消回复欢迎 发表评论: