主流大模型精调方式的系统对比（模型精度）

ccwgpt 2025-07-14 15:18 4 浏览 0 评论

预训练后精调框架对比

方法	核心思想	数据需求	成本	典型应用场景	代表模型
Post-pretrain	领域增量预训练	大规模领域文本	极高	专业领域适应（医疗/法律）	Galactica
SFT	监督式指令微调	高质量标注对	中-高	基础能力对齐	LLaMA-2-Chat
RFT	基于反思的迭代优化	错误修正数据	中	复杂推理提升	ReSTEM
DPO	直接偏好优化（替代RLHF）	偏好排序数据	低	快速对齐	Zephyr-7B
KTO	Kahneman-Tversky优化理论驱动	二元反馈	极低	轻量级对齐	最新研究
RLHF	基于人类反馈的强化学习	多轮偏好标注	极高	安全对齐	ChatGPT
SimPO	相似性优先优化（无奖励模型）	正负样本对	中	小规模高效对齐	InternLM2

预训练：Post-pretrain

您可以基于大量的无标注纯文本数据定制行业或者领域大模型，并进一步SFT提升指令遵循能力。

监督微调：SFT

提供全量更新、LoRA的训练模式。通过有监督的方式精调模型，从而提升模型在特定任务上的指令遵循能力。

偏好对齐：RFT

RFT的核心是通过自动化生成的奖励信号驱动模型优化，让模型通过多轮试错和反馈逐步提升推理能力。

偏好对齐：DPO

基于成对的正负反馈数据，直接训练大模型，使其更符合人类偏好。

偏好对齐：KTO

根据用户正向或负向反馈进行模型训练，高效对齐用户行为偏好。

偏好对齐：RLHF-奖励模型

基于人类反馈的偏好排序数据训练奖励模型。

偏好对齐：RLHF-强化学习

通过最大化奖励来调优大模型，使得大模型与人类偏好对齐。

偏好对齐：SimPO

基于成对的正负反馈数据，简单高效的对齐偏好信息。

前沿进展

混合策略：

SFT→DPO→RLHF 三阶段 pipeline（Claude 3）
RFT+SimPO 迭代优化（Google Gemini）

计算优化：

MemFree-RLHF：显存占用降低70%
1-bit RLHF：量化强化学习

理论突破：

Distributional DPO：建模偏好不确定性
Meta-KTO：动态调整损失敏感系数

6. 生产环境建议

快速上线：DPO（Zephyr方案）
安全关键型：RLHF+安全过滤器（OpenAI范式）
小团队低成本：SimPO+LoRA（仅需2块A100）
领域专家模型：Post-pretrain → SFT → RFT

典型代码库推荐：

TRL（HuggingFace RLHF全流程）
Alignment Handbook（DPO/KTO实现）
DeepSpeed-Chat（RLHF优化）

hsf框架

主流大模型精调方式的系统对比（模型精度）

预训练后精调框架对比

预训练：Post-pretrain

监督微调：SFT

偏好对齐：RFT

偏好对齐：DPO

偏好对齐：KTO

偏好对齐：RLHF-奖励模型

偏好对齐：RLHF-强化学习

偏好对齐：SimPO

前沿进展

6. 生产环境建议

相关推荐

取消回复欢迎你发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

(转载)Python爬虫框架Scrapy入门与实践

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

主流大模型精调方式的系统对比（模型 精度）

预训练后精调框架对比

预训练：Post-pretrain

监督微调：SFT

偏好对齐：RFT

偏好对齐：DPO

偏好对齐：KTO

偏好对齐：RLHF-奖励模型

偏好对齐：RLHF-强化学习

偏好对齐：SimPO

前沿进展

6. 生产环境建议

相关推荐

取消回复欢迎 你 发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

(转载)Python爬虫框架Scrapy入门与实践

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

主流大模型精调方式的系统对比（模型精度）

取消回复欢迎你发表评论: