百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

DeepSeek R1:理解 GRPO 和多阶段训练

ccwgpt 2025-05-07 23:28 27 浏览 0 评论

人工智能在DeepSeek R1 的发布后取得了显著进步,这是一个挑战 OpenAI 的 o1 的开源模型,在高级推理任务中表现出色。DeepSeek R1 采用了创新的组相对策略优化(Group Relative Policy Optimisation, GRPO)技术和多阶段训练方法,在数学、编程和一般推理方面为 AI 模型树立了新的标杆。



DeepSeek R1 的独特之处在于,它能够在保持精简训练过程的同时,以惊人的准确性和推理深度解决复杂任务。本文将深入探讨其基础方法、训练流程以及使 DeepSeek R1 成为 AI 研究中卓越模型的创新之处。


理解组相对策略优化(GRPO)

组相对策略优化(Group Relative Policy Optimisation, GRPO) 是推动 DeepSeek R1 卓越推理能力的核心创新。这一强化学习算法在 DeepSeekMath 论文中首次提出,通过重新思考奖励和优化的处理方式,提升了模型训练的效果。


GRPO 用一种更简单、更高效的方法取代了传统的近端策略优化(Proximal Policy Optimisation, PPO),专门针对大语言模型进行了优化。


组相对策略优化(Group Relative Policy Optimisation, GRPO)是近端策略优化(Proximal Policy Optimisation, PPO)的一个变体,它在提升数学推理能力的同时,优化了 PPO 的内存使用。


近端策略优化(PPO) 和 组相对策略优化(GRPO) 的关键区别在于它们对优势估计和计算效率的处理方式。PPO 依赖于单独的值模型,而 GRPO 消除了这种依赖,用基于组的相对优势估计取代了它,从而减少了内存和计算成本。




PPO 与 GRPO 的关键区别:

  • 值模型(Value Model):PPO 使用值模型进行优势估计,而 GRPO 取消了值模型,依赖于组归一化的奖励。
  • KL 正则化(KL Regularization):PPO 在奖励中包含 KL 惩罚项;GRPO 直接通过 KL 散度项对损失进行正则化。
  • 奖励粒度(Reward Granularity):PPO 直接计算 token 级别的奖励,而 GRPO 利用组相对奖励,对采样输出进行归一化。
  • 计算效率(Computational Efficiency):由于取消了值模型且优势估计更简单,GRPO 的效率更高。


DeepSeek R1 的多阶段训练

训练像 DeepSeek R1 这样的高级推理模型,不仅需要强大的计算能力,还需要精心设计的训练流程。为了实现卓越的推理能力和连贯性,DeepSeek 团队设计了一个多阶段训练方法,结合了监督微调(Supervised Fine-Tuning, SFT)和基于 GRPO 的强化学习(Reinforcement Learning, RL),有效克服了强化学习训练初期的不稳定性,确保模型在多种任务上表现出色。



第一阶段:从基础模型到监督微调(SFT)

训练从使用高质量的思维链(Chain-of-Thought, CoT)数据对 DeepSeek V3 基础模型进行微调开始。


数据收集:使用 R1-zero 模型和人工标注生成长达 10,000 个 token 的推理补全(CoT)数据。

重点:提高模型输出的可读性、连贯性和逻辑流畅性。

结果:为强化学习奠定坚实基础,减少后续训练阶段的不稳定性。


第二阶段:推理任务的强化学习(RL)

在这一阶段,引入了组相对策略优化(GRPO),以提升模型在数学、编程和结构化问题解决等任务中的推理能力。


基于规则的奖励:

  • 关注准确性(例如解决编程问题、验证数学结果)。
  • 强制执行格式化规则以确保清晰性,例如将思维过程用特定标签(如“reasoning”)括起来。

新的奖励信号:

  • 引入“语言一致性”奖励,鼓励模型在输出中保持一致的语言风格。

结果:

  • 推理性能显著提升,这在 AIME 2024 的 pass@1 分数跃升至 71.0% 中得到了体现。


第三阶段:拒绝采样与监督微调(Rejection Sampling and SFT)

为了扩展模型的能力,通过拒绝采样(Rejection Sampling, RS)生成了一个大型合成数据集。


数据集创建:

  • 第二阶段的模型生成了 60 万个与推理相关的样本。
  • 额外生成了 20 万个样本,专注于写作和角色扮演等通用任务。
  • 数据来源于 DeepSeek V3 的监督微调(SFT)数据集,或重新生成并包含思维链(chain-of-thought)。


重点:

  • 将模型的能力从推理任务扩展到创意和通用领域。

结果:

  • 模型在更广泛的任务中展现出更大的灵活性和连贯性。


第四阶段:强化学习用于提升有用性和安全性

在最后阶段,再次应用了组相对策略优化(GRPO),但这次的重点是提升模型的有用性和安全性。


奖励模型的组合:

  • 基于规则的奖励确保推理能力和准确性的持续提升。
  • 基于结果的奖励鼓励模型生成有用且安全的输出。

结果:

  • 模型在处理复杂推理任务的同时,保持了清晰性、安全性以及与用户的对齐性,展现出一种平衡的能力。



多阶段训练的关键洞见

早期监督微调稳定强化学习训练:在应用强化学习技术之前对基础模型进行微调,可以减少训练过程中的不稳定性并加速收敛。

基于规则的奖励效果显著:简单的、针对性的奖励(如准确性、格式化)通常比复杂的奖励模型表现更好。

拒绝采样提升灵活性:通过拒绝采样生成的合成数据集增强了模型对多样化任务的适应性。


通过战略性地交替使用监督微调和强化学习,DeepSeek 团队克服了强化学习冷启动和任务特定过拟合的挑战。这种多阶段训练流程确保了 DeepSeek R1 既能出色完成推理任务,也能在更广泛的应用场景中表现优异。



#deepseek# #我的宝藏兴趣#

相关推荐

一个基于.Net Core遵循Clean Architecture原则开源架构

今天给大家推荐一个遵循CleanArchitecture原则开源架构。项目简介这是基于Asp.netCore6开发的,遵循CleanArchitecture原则,可以高效、快速地构建基于Ra...

AI写代码翻车无数次,我发现只要提前做好这3步,bug立减80%

写十万行全是bug之后终于找到方法了开发"提示词管理助手"新版本那会儿,我差点被bug整崩溃。刚开始两周,全靠AI改代码架构,结果十万行程序漏洞百出。本来以为AI说没问题就稳了,结果...

OneCode低代码平台的事件驱动设计:架构解析与实践

引言:低代码平台的事件驱动范式在现代软件开发中,事件驱动架构(EDA)已成为构建灵活、松耦合系统的核心范式。OneCode低代码平台通过创新性的注解驱动设计,将事件驱动理念深度融入平台架构,实现了业务...

国内大厂AI插件评测:根据UI图生成Vue前端代码

在IDEA中安装大厂的AI插件,打开ruoyi增强项目:yudao-ui-admin-vue31.CodeBuddy插件登录腾讯的CodeBuddy后,大模型选择deepseek-v3,输入提示语:...

AI+低代码技术揭秘(二):核心架构

本文档介绍了为VTJ低代码平台提供支持的基本架构组件,包括Engine编排层、Provider服务系统、数据模型和代码生成管道。有关UI组件库和widget系统的信息,请参阅UI...

GitDiagram用AI把代码库变成可视化架构图

这是一个名为gitdiagram的开源工具,可将GitHub仓库实时转换为交互式架构图,帮助开发者快速理解代码结构。核心功能一键可视化:替换GitHubURL中的"hub...

30天自制操作系统:第六天:代码架构整理与中断处理

1.拆开bootpack.c文件。根据设计模式将对应的功能封装成独立的文件。2.初始化pic:pic(可编程中断控制器):在设计上,cpu单独只能处理一个中断。而pic是将8个中断信号集合成一个中断...

AI写代码越帮越忙?2025年研究揭露惊人真相

近年来,AI工具如雨后春笋般涌现,许多人开始幻想程序员的未来就是“对着AI说几句话”,就能轻松写出完美的代码。然而,2025年的一项最新研究却颠覆了这一期待,揭示了一个令人意外的结果。研究邀请了16位...

一键理解开源项目:两个自动生成GitHub代码架构图与说明书工具

一、GitDiagram可以一键生成github代码仓库的架构图如果想要可视化github开源项目:https://github.com/luler/reflex_ai_fast,也可以直接把域名替换...

5分钟掌握 c# 网络通讯架构及代码示例

以下是C#网络通讯架构的核心要点及代码示例,按协议类型分类整理:一、TCP协议(可靠连接)1.同步通信//服务器端usingSystem.Net.Sockets;usingTcpListene...

从复杂到优雅:用建造者和责任链重塑代码架构

引用设计模式是软件开发中的重要工具,它为解决常见问题提供了标准化的解决方案,提高了代码的可维护性和可扩展性,提升了开发效率,促进了团队协作,提高了软件质量,并帮助开发者更好地适应需求变化。通过学习和应...

低代码开发当道,我还需要学习LangChain这些框架吗?| IT杂谈

专注LLM深度应用,关注我不迷路前两天有位兄弟问了个问题:当然我很能理解这位朋友的担忧:期望效率最大化,时间用在刀刃上,“不要重新发明轮子”嘛。铺天盖地的AI信息轰炸与概念炒作,很容易让人浮躁与迷茫。...

框架设计并不是简单粗暴地写代码,而是要先弄清逻辑

3.框架设计3.框架设计本节我们要开发一个UI框架,底层以白鹭引擎为例。框架设计的第一步并不是直接撸代码,而是先想清楚设计思想,抽象。一个一个的UI窗口是独立的吗?不是的,...

大佬用 Avalonia 框架开发的 C# 代码 IDE

AvalonStudioAvalonStudio是一个开源的跨平台的开发编辑器(IDE),AvalonStudio的目标是成为一个功能齐全,并且可以让开发者快速使用的IDE,提高开发的生产力。A...

轻量级框架Lagent 仅需20行代码即可构建自己的智能代理

站长之家(ChinaZ.com)8月30日消息:Lagent是一个专注于基于LLM模型的代理开发的轻量级框架。它的设计旨在简化和提高这种模型下代理的开发效率。LLM模型是一种强大的工具,可以...

取消回复欢迎 发表评论: