DeepSeek R1:理解 GRPO 和多阶段训练
ccwgpt 2025-05-07 23:28 5 浏览 0 评论
人工智能在DeepSeek R1 的发布后取得了显著进步,这是一个挑战 OpenAI 的 o1 的开源模型,在高级推理任务中表现出色。DeepSeek R1 采用了创新的组相对策略优化(Group Relative Policy Optimisation, GRPO)技术和多阶段训练方法,在数学、编程和一般推理方面为 AI 模型树立了新的标杆。
DeepSeek R1 的独特之处在于,它能够在保持精简训练过程的同时,以惊人的准确性和推理深度解决复杂任务。本文将深入探讨其基础方法、训练流程以及使 DeepSeek R1 成为 AI 研究中卓越模型的创新之处。
理解组相对策略优化(GRPO)
组相对策略优化(Group Relative Policy Optimisation, GRPO) 是推动 DeepSeek R1 卓越推理能力的核心创新。这一强化学习算法在 DeepSeekMath 论文中首次提出,通过重新思考奖励和优化的处理方式,提升了模型训练的效果。
GRPO 用一种更简单、更高效的方法取代了传统的近端策略优化(Proximal Policy Optimisation, PPO),专门针对大语言模型进行了优化。
组相对策略优化(Group Relative Policy Optimisation, GRPO)是近端策略优化(Proximal Policy Optimisation, PPO)的一个变体,它在提升数学推理能力的同时,优化了 PPO 的内存使用。
近端策略优化(PPO) 和 组相对策略优化(GRPO) 的关键区别在于它们对优势估计和计算效率的处理方式。PPO 依赖于单独的值模型,而 GRPO 消除了这种依赖,用基于组的相对优势估计取代了它,从而减少了内存和计算成本。
PPO 与 GRPO 的关键区别:
- 值模型(Value Model):PPO 使用值模型进行优势估计,而 GRPO 取消了值模型,依赖于组归一化的奖励。
- KL 正则化(KL Regularization):PPO 在奖励中包含 KL 惩罚项;GRPO 直接通过 KL 散度项对损失进行正则化。
- 奖励粒度(Reward Granularity):PPO 直接计算 token 级别的奖励,而 GRPO 利用组相对奖励,对采样输出进行归一化。
- 计算效率(Computational Efficiency):由于取消了值模型且优势估计更简单,GRPO 的效率更高。
DeepSeek R1 的多阶段训练
训练像 DeepSeek R1 这样的高级推理模型,不仅需要强大的计算能力,还需要精心设计的训练流程。为了实现卓越的推理能力和连贯性,DeepSeek 团队设计了一个多阶段训练方法,结合了监督微调(Supervised Fine-Tuning, SFT)和基于 GRPO 的强化学习(Reinforcement Learning, RL),有效克服了强化学习训练初期的不稳定性,确保模型在多种任务上表现出色。
第一阶段:从基础模型到监督微调(SFT)
训练从使用高质量的思维链(Chain-of-Thought, CoT)数据对 DeepSeek V3 基础模型进行微调开始。
数据收集:使用 R1-zero 模型和人工标注生成长达 10,000 个 token 的推理补全(CoT)数据。
重点:提高模型输出的可读性、连贯性和逻辑流畅性。
结果:为强化学习奠定坚实基础,减少后续训练阶段的不稳定性。
第二阶段:推理任务的强化学习(RL)
在这一阶段,引入了组相对策略优化(GRPO),以提升模型在数学、编程和结构化问题解决等任务中的推理能力。
基于规则的奖励:
- 关注准确性(例如解决编程问题、验证数学结果)。
- 强制执行格式化规则以确保清晰性,例如将思维过程用特定标签(如“reasoning”)括起来。
新的奖励信号:
- 引入“语言一致性”奖励,鼓励模型在输出中保持一致的语言风格。
结果:
- 推理性能显著提升,这在 AIME 2024 的 pass@1 分数跃升至 71.0% 中得到了体现。
第三阶段:拒绝采样与监督微调(Rejection Sampling and SFT)
为了扩展模型的能力,通过拒绝采样(Rejection Sampling, RS)生成了一个大型合成数据集。
数据集创建:
- 第二阶段的模型生成了 60 万个与推理相关的样本。
- 额外生成了 20 万个样本,专注于写作和角色扮演等通用任务。
- 数据来源于 DeepSeek V3 的监督微调(SFT)数据集,或重新生成并包含思维链(chain-of-thought)。
重点:
- 将模型的能力从推理任务扩展到创意和通用领域。
结果:
- 模型在更广泛的任务中展现出更大的灵活性和连贯性。
第四阶段:强化学习用于提升有用性和安全性
在最后阶段,再次应用了组相对策略优化(GRPO),但这次的重点是提升模型的有用性和安全性。
奖励模型的组合:
- 基于规则的奖励确保推理能力和准确性的持续提升。
- 基于结果的奖励鼓励模型生成有用且安全的输出。
结果:
- 模型在处理复杂推理任务的同时,保持了清晰性、安全性以及与用户的对齐性,展现出一种平衡的能力。
多阶段训练的关键洞见
早期监督微调稳定强化学习训练:在应用强化学习技术之前对基础模型进行微调,可以减少训练过程中的不稳定性并加速收敛。
基于规则的奖励效果显著:简单的、针对性的奖励(如准确性、格式化)通常比复杂的奖励模型表现更好。
拒绝采样提升灵活性:通过拒绝采样生成的合成数据集增强了模型对多样化任务的适应性。
通过战略性地交替使用监督微调和强化学习,DeepSeek 团队克服了强化学习冷启动和任务特定过拟合的挑战。这种多阶段训练流程确保了 DeepSeek R1 既能出色完成推理任务,也能在更广泛的应用场景中表现优异。
相关推荐
- Python Scrapy 项目实战(python scripy)
-
爬虫编写流程首先明确Python爬虫代码编写的流程:先直接打开网页,找到你想要的数据,就是走一遍流程。比如这个项目我要爬取历史某一天所有比赛的赔率数据、每场比赛的比赛结果等。那么我就先打开这个网址...
- 为何大厂后端开发更青睐 Python 而非 Java 进行爬虫开发?
-
在互联网大厂的后端开发领域,爬虫技术广泛应用于数据收集、竞品分析、内容监测等诸多场景。然而,一个有趣的现象是,相较于Java,Python成为了爬虫开发的首选语言。这背后究竟隐藏着怎样的原因呢?让...
- 爬虫小知识,scrapy爬虫框架中爬虫名词的含义
-
在上一篇文章当中学记给大家展示了Scrapy爬虫框架在爬取之前的框架文件该如何设置。在上一篇文章当中,是直接以代码的形式进行描述的,在这篇文章当中学记会解释一下上一篇文章当中爬虫代码当中的一些名词...
- python爬虫神器--Scrapy(python爬虫详细教程)
-
什么是爬虫,爬虫能用来做什么?文章中给你答案。*_*今天我们就开发一个简单的项目,来爬取一下itcast.cn中c/c++教师的职位以及名称等信息。网站链接:http://www.itcast.cn...
- Gradio:从UI库到强大AI框架的蜕变
-
Gradio,这个曾经被简单视为PythonUI库的工具,如今已华丽转身,成为AI应用开发的强大框架。它不仅能让开发者用极少的代码构建交互式界面,更通过一系列独特功能,彻底改变了机器学习应用的开发和...
- 研究人员提出AI模型无损压缩框架,压缩率达70%
-
大模型被压缩30%性能仍与原模型一致,既能兼容GPU推理、又能减少内存和GPU开销、并且比英伟达nvCOMP解压缩快15倍。这便是美国莱斯大学博士生张天一和合作者打造的无损压缩框架...
- 阿里发布Qwen-Agent框架,赋能开发者构建复杂AI智能体
-
IT之家1月4日消息,阿里通义千问Qwen推出全新AI框架Qwen-Agent,基于现有Qwen语言模型,支持智能体执行复杂任务,并提供多种高级功能,赋能开发者构建更强大的AI...
- 向量数仓与大数据平台:企业数据架构的新范式
-
在当前的大模型时代,企业数据架构正面临着前所未有的挑战和机遇。随着大模型的不断发布和多模态模型的发展,AIGC应用的繁荣和生态配套的逐渐完备,企业需要适应这种新的数据环境,以应对行业变革。一、大模型时...
- 干货!大数据管理平台规划设计方案PPT
-
近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的...
- 阿里巴巴十亿级并发系统设计:实现高并发场景下的稳定性和高性能
-
阿里巴巴的十亿级并发系统设计是其在大规模高并发场景下(如双11、双12等)保持稳定运行的核心技术框架。以下是其关键设计要点及技术实现方案:一、高可用性设计多数据中心与容灾采用多数据中心部署,通过异地容...
- 阿里云云原生一体化数仓—数据治理新能力解读
-
一、数据治理中心产品简介阿里云DataWorks:一站式大数据开发与治理平台架构大图阿里云DataWorks定位于一站式的大数据开发和治理平台,从下图可以看出,DataWorks与MaxCom...
- DeepSeek R1:理解 GRPO 和多阶段训练
-
人工智能在DeepSeekR1的发布后取得了显著进步,这是一个挑战OpenAI的o1的开源模型,在高级推理任务中表现出色。DeepSeekR1采用了创新的组相对策略优化(GroupR...
- 揭秘永久免费视频会议软件平台架构
-
如今视频会议已经成为各个团队线上协同的必备方式之一,视频会议软件的选择直接影响团队效率与成本,觅讯会议凭借永久免费迅速出圈,本文将从技术架构、核心功能和安全体系等维度,深度解析其技术实现与应用价值,为...
- DeepSeek + Kimi = 五分钟打造优质 PPT
-
首先,在DeepSeek中输出提示词,示例如下:为课程《提示词基础-解锁AI沟通的秘密》设计一个PPT大纲,目的是让学生:1.理解提示词的概念、作用和重要性2.掌握构建有效提示词的基本原则和技巧...
- 软件系统如何设计可扩展架构?方法论,Java实战代码
-
软件系统如何设计可扩展架构?方法论,Java实战代码,请关注,点赞,收藏。方法论那先想想方法论部分。扩展性架构的关键点通常包括分层、模块化、微服务、水平扩展、异步处理、缓存、负载均衡、分布式架构等等...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- bootstrap框架 (43)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- express框架 (43)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- java框架spring (43)
- grpc框架 (55)
- orm框架有哪些 (43)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)