百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

DeepSeek R1:理解 GRPO 和多阶段训练

ccwgpt 2025-05-07 23:28 19 浏览 0 评论

人工智能在DeepSeek R1 的发布后取得了显著进步,这是一个挑战 OpenAI 的 o1 的开源模型,在高级推理任务中表现出色。DeepSeek R1 采用了创新的组相对策略优化(Group Relative Policy Optimisation, GRPO)技术和多阶段训练方法,在数学、编程和一般推理方面为 AI 模型树立了新的标杆。



DeepSeek R1 的独特之处在于,它能够在保持精简训练过程的同时,以惊人的准确性和推理深度解决复杂任务。本文将深入探讨其基础方法、训练流程以及使 DeepSeek R1 成为 AI 研究中卓越模型的创新之处。


理解组相对策略优化(GRPO)

组相对策略优化(Group Relative Policy Optimisation, GRPO) 是推动 DeepSeek R1 卓越推理能力的核心创新。这一强化学习算法在 DeepSeekMath 论文中首次提出,通过重新思考奖励和优化的处理方式,提升了模型训练的效果。


GRPO 用一种更简单、更高效的方法取代了传统的近端策略优化(Proximal Policy Optimisation, PPO),专门针对大语言模型进行了优化。


组相对策略优化(Group Relative Policy Optimisation, GRPO)是近端策略优化(Proximal Policy Optimisation, PPO)的一个变体,它在提升数学推理能力的同时,优化了 PPO 的内存使用。


近端策略优化(PPO) 和 组相对策略优化(GRPO) 的关键区别在于它们对优势估计和计算效率的处理方式。PPO 依赖于单独的值模型,而 GRPO 消除了这种依赖,用基于组的相对优势估计取代了它,从而减少了内存和计算成本。




PPO 与 GRPO 的关键区别:

  • 值模型(Value Model):PPO 使用值模型进行优势估计,而 GRPO 取消了值模型,依赖于组归一化的奖励。
  • KL 正则化(KL Regularization):PPO 在奖励中包含 KL 惩罚项;GRPO 直接通过 KL 散度项对损失进行正则化。
  • 奖励粒度(Reward Granularity):PPO 直接计算 token 级别的奖励,而 GRPO 利用组相对奖励,对采样输出进行归一化。
  • 计算效率(Computational Efficiency):由于取消了值模型且优势估计更简单,GRPO 的效率更高。


DeepSeek R1 的多阶段训练

训练像 DeepSeek R1 这样的高级推理模型,不仅需要强大的计算能力,还需要精心设计的训练流程。为了实现卓越的推理能力和连贯性,DeepSeek 团队设计了一个多阶段训练方法,结合了监督微调(Supervised Fine-Tuning, SFT)和基于 GRPO 的强化学习(Reinforcement Learning, RL),有效克服了强化学习训练初期的不稳定性,确保模型在多种任务上表现出色。



第一阶段:从基础模型到监督微调(SFT)

训练从使用高质量的思维链(Chain-of-Thought, CoT)数据对 DeepSeek V3 基础模型进行微调开始。


数据收集:使用 R1-zero 模型和人工标注生成长达 10,000 个 token 的推理补全(CoT)数据。

重点:提高模型输出的可读性、连贯性和逻辑流畅性。

结果:为强化学习奠定坚实基础,减少后续训练阶段的不稳定性。


第二阶段:推理任务的强化学习(RL)

在这一阶段,引入了组相对策略优化(GRPO),以提升模型在数学、编程和结构化问题解决等任务中的推理能力。


基于规则的奖励:

  • 关注准确性(例如解决编程问题、验证数学结果)。
  • 强制执行格式化规则以确保清晰性,例如将思维过程用特定标签(如“reasoning”)括起来。

新的奖励信号:

  • 引入“语言一致性”奖励,鼓励模型在输出中保持一致的语言风格。

结果:

  • 推理性能显著提升,这在 AIME 2024 的 pass@1 分数跃升至 71.0% 中得到了体现。


第三阶段:拒绝采样与监督微调(Rejection Sampling and SFT)

为了扩展模型的能力,通过拒绝采样(Rejection Sampling, RS)生成了一个大型合成数据集。


数据集创建:

  • 第二阶段的模型生成了 60 万个与推理相关的样本。
  • 额外生成了 20 万个样本,专注于写作和角色扮演等通用任务。
  • 数据来源于 DeepSeek V3 的监督微调(SFT)数据集,或重新生成并包含思维链(chain-of-thought)。


重点:

  • 将模型的能力从推理任务扩展到创意和通用领域。

结果:

  • 模型在更广泛的任务中展现出更大的灵活性和连贯性。


第四阶段:强化学习用于提升有用性和安全性

在最后阶段,再次应用了组相对策略优化(GRPO),但这次的重点是提升模型的有用性和安全性。


奖励模型的组合:

  • 基于规则的奖励确保推理能力和准确性的持续提升。
  • 基于结果的奖励鼓励模型生成有用且安全的输出。

结果:

  • 模型在处理复杂推理任务的同时,保持了清晰性、安全性以及与用户的对齐性,展现出一种平衡的能力。



多阶段训练的关键洞见

早期监督微调稳定强化学习训练:在应用强化学习技术之前对基础模型进行微调,可以减少训练过程中的不稳定性并加速收敛。

基于规则的奖励效果显著:简单的、针对性的奖励(如准确性、格式化)通常比复杂的奖励模型表现更好。

拒绝采样提升灵活性:通过拒绝采样生成的合成数据集增强了模型对多样化任务的适应性。


通过战略性地交替使用监督微调和强化学习,DeepSeek 团队克服了强化学习冷启动和任务特定过拟合的挑战。这种多阶段训练流程确保了 DeepSeek R1 既能出色完成推理任务,也能在更广泛的应用场景中表现优异。



#deepseek# #我的宝藏兴趣#

相关推荐

2025南通中考作文解读之四:结构框架

文题《继续走,迈向远方》结构框架:清晰叙事,层层递进示例结构:1.开头(点题):用环境描写或比喻引出“走”与“远方”,如“人生如一条长路,每一次驻足后,都需要继续走,才能看见更美的风景”。2.中间...

高中数学的知识框架(高中数学知识框架图第三章)

高中数学的知识框架可以划分为多个核心板块,每个板块包含具体的知识点与内容,以下为详细的知识框架结构:基础知识1.集合与逻辑用语:涵盖集合的概念、表示方式、性质、运算,以及命题、四种命题关系、充分条件...

决定人生的六大框架(决定人生的要素)

45岁的自己混到今天,其实是失败的,要是早点意识到影响人生的六大框架,也不至于今天的模样啊!排第一的是环境,不是有句话叫人是环境的产物,身边的环境包括身边的人和事,这些都会对一个人产生深远的影响。其次...

2023年想考过一级造价师土建计量,看这30个知识点(三)

第二章工程构造考点一:工业建筑分类[考频分析]★★★1.按厂房层数分:(1)单层厂房;(2)多层厂房;(3)混合层数厂房。2.按工业建筑用途分:(1)生产厂房;(2)生产辅助厂房;(3)动力用厂房;(...

一级建造师习题集-建筑工程实务(第一章-第二节-2)

建筑工程管理与实务题库(章节练习)第一章建筑工程技术第二节结构设计与构造二、结构设计1.常见建筑结构体系中,适用建筑高度最小的是()。A.框架结构体系B.剪力墙结构体系C.框架-剪力墙结构体系D...

冷眼读书丨多塔斜拉桥,这么美又这么牛

”重大交通基础设施的建设是国民经济和社会发展的先导,是交通运输行业新技术集中应用与创新的综合体现。多塔斜拉桥因跨越能力强、地形适应性强、造型优美等特点,备受桥梁设计者的青睐,在未来跨越海峡工程中将得...

2021一级造价师土建计量知识点:民用建筑分类

2021造价考试备考开始了,学霸君为大家整理了一级造价师备考所用的知识点,希望对大家的备考道路上有所帮助。  民用建筑分类  一、按层数和高度分  1.住宅建筑按层数分类:1~3层为低层住宅,4~6层...

6个建筑结构常见类型,你都知道吗?

建筑结构是建筑物中支承荷载(作用)起骨架作用的体系。结构是由构件组成的。构件有拉(压)杆、梁、板、柱、拱、壳、薄膜、索、基础等。常见的建筑结构类型有6种:砖混结构、砖木结构、框架结构、钢筋混凝土结构、...

框架结构设计经验总结(框架结构设计应注意哪些问题)

1.结构设计说明主要是设计依据,抗震等级,人防等级,地基情况及承载力,防潮抗渗做法,活荷载值,材料等级,施工中的注意事项,选用详图,通用详图或节点,以及在施工图中未画出而通过说明来表达的信息。2.各...

浅谈混凝土框架结构设计(混凝土框架结构设计主要内容)

浅谈混凝土框架结构设计 摘要:结构设计是个系统的全面的工作,需要扎实的理论知识功底,灵活创新的思维和严肃认真负责的工作态度。钢筋混凝土框架结构虽然相对简单,但设计中仍有很多需要注意的问题。本文针...

2022一级建造师《建筑实务》1A412020 结构设计 精细考点整理

历年真题分布统计1A412021常用建筑结构体系和应用一、混合结构体系【2012-3】指楼盖和屋盖采用钢筋混凝土或钢木结构,而墙和柱采用砌体结构建造的房屋,大多用在住宅、办公楼、教学楼建筑中。优点:...

破土动工!这个故宫“分院”科技含量有点儿高

故宫“分院”设计图。受访者供图近日,位于北京海淀区西北旺镇的故宫北院区项目已开始破土动工,该项目也被称作故宫“分院”,筹备近十年之久。据悉,故宫本院每年展览文物的数量不到1万件,但是“分院”建成后,预...

装配式结构体系介绍(上)(装配式结构如何设计)

PC构件深化、构件之间连接节点做法等与相应装配式结构体系密切相关。本节列举目前常见的几种装配式结构体系:装配整体式混凝土剪力墙结构体系、装配整体式混凝土框架结构体系、装配整体式混凝土空腔结构体系(S...

这些不是双向抗侧结构体系(这些不是双向抗侧结构体系的特点)

双向抗侧土木吧规范对双向抗恻力结构有何规定?为何不应采用单向有墙的结构?双向抗侧土木吧1.规范对双向抗侧力结构体系的要求抗侧力体系是指抵抗水平地震作用及风荷载的结构体系。对于结构体系的布置,规范针对...

2022一级建造师《建筑实务》1A412020 结构设计 精细化考点整理

1A412021常用建筑结构体系和应用一、混合结构体系【2012-3】指楼盖和屋盖采用钢筋混凝土或钢木结构,而墙和柱采用砌体结构建造的房屋,大多用在住宅、办公楼、教学楼建筑中。优点:抗压强度高,造价...

取消回复欢迎 发表评论: