SFT 和 RAG:大模型的‘内功’与‘外挂’

ccwgpt 2025-07-14 15:18 5 浏览 0 评论

尽管大语言模型（LLM）的能力令人眼前一亮，但仍然面临一些关键问题，例如知识更新滞后、事实性错误以及缺乏专业领域的知识等等。

关键问题 问题分析 知识更新滞后 LLM 的训练数据往往是静态的。无法实时获取最新信息。事实性错误（幻觉） LLM 在生成文本时可能会产生“幻觉”，即生成的内容与事实不符。缺乏专业领域的知识 LLM 的训练数据通常是通用数据，可能无法覆盖特定领域的专业知识。

为了应对这些问题，RAG（检索增强生成，Retrieval-Augmented Generation）和SFT（监督微调，Supervised Fine-Tuning）是两种重要的技术手段。它们分别从不同的角度解决了大模型的局限性，并且在某些场景下可以协同工作，进一步提升模型性能。

一、RAG（检索增强生成，Retrieval-Augmented Generation）

1. 什么是RAG？

RAG 的全称是 Retrieval-Augmented Generation ，翻译为“检索增强生成”。

检索：指的是从外部知识库中检索相关信息。
增强生成 ：将检索到的知识传递给大语言模型（LLM），使其能够参考这些信息生成更准确、更相关的回答。

简单来说，RAG 是一种结合了“检索”和“生成”的技术框架，通过引入外部知识库来增强大语言模型的能力，从而解决模型训练数据有限或过时的问题。

2. RAG的运行流程

检索阶段

检索是 RAG 流程的第一步，其目标是从外部知识库中提取与用户输入相关的信息。具体过程如下：

输入查询：用户提出一个问题或一段文本，作为系统的输入。例如：“请解释量子计算的基本原理。”
信息检索：检索模型根据输入查询，从知识库、数据库或其他外部来源（如文档集合、网页内容等）中抓取相关信息。检索范围取决于输入查询的内容。例如，如果问题是关于医学领域的专业术语，系统可能会优先检索医学文献。
向量化处理：检索到的信息会被转化为高维度空间中的向量表示（即嵌入向量）。这些向量能够捕捉语义信息，并存储在专门的向量数据库中。
排序与筛选：向量模型基于输入查询与知识库中信息的相关性，对检索到的内容进行排序。相关性得分最高的文档或段落会被选中，作为后续生成阶段的参考依据。

生成阶段

生成阶段是 RAG 的核心环节，利用检索到的信息为用户提供高质量的回答。具体步骤如下：

输入整合：检索到的相关信息与用户的原始输入一起传递给生成模型（如 DeepSeek、Qwen 等）。这些补充信息为生成模型提供了额外的事实背景和上下文支持。
文本生成：生成模型基于整合后的输入，生成连贯且语义准确的文本回复。由于引入了外部知识，生成的内容通常更加精准，尤其是在涉及专业领域或特定主题时。
后处理优化：生成的文本可能会经过额外的后处理步骤，以确保语法正确性和语义连贯性。例如，系统可以调整句式结构、消除冗余信息，或者对生成内容进行格式化处理。

输出结果

最终，系统将生成的文本返回给用户。这些回复不仅更加准确，也更具语境相关性，因为它们基于检索模型提供的权威信息。

二、SFT（监督微调，Supervised Fine-Tuning）

1. 什么是SFT？

SFT（Supervised Fine-Tuning） 是指在预训练模型的基础上，利用标注数据对其进行监督学习的微调过程。预训练模型通常是在大规模无标注数据上训练得到的通用模型，而SFT则是通过引入与目标任务相关的标注数据，调整模型参数以适配具体任务需求。

2. SFT训练流程

下面我将使用 Hugging Face 的 transformers 库结合一个预训练的语言模型 —GPT-2为例，通过 SFT 微调它来完成问答任务。

2.1 加载预训练模型和 Tokenizer

# 加载预训练模型和分词器
model_name = "gpt2"  # 使用 GPT-2 作为基础模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 如果 tokenizer 没有设置 pad_token，则手动添加
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

2.2 准备数据集

# 示例SFT数据格式：输入-输出对
data = [
    {"input": "What is the capital of France?", "output": "The capital of France is Paris."},
    {"input": "Who wrote 'Hamlet'?", "output": "William Shakespeare wrote 'Hamlet'."},
    {"input": "Explain what AI is.", "output": "AI stands for Artificial Intelligence, which simulates human intelligence."}
]

# 将数据转换为 Hugging Face Dataset 格式
def preprocess_data(examples):
    inputs = [example["input"] for example in examples]
    outputs = [example["output"] for example in examples]
    
    # Tokenize 输入和输出，超过64会被截断（truncation）
    tokenized_inputs = tokenizer(inputs, padding="max_length", truncation=True, max_length=64)
    tokenized_outputs = tokenizer(outputs, padding="max_length", truncation=True, max_length=64)
    
    # 构造 labels（目标输出）
    tokenized_inputs["labels"] = tokenized_outputs["input_ids"]
    return tokenized_inputs

# 转换为 Dataset 对象，方便后续训练
dataset = Dataset.from_list(data)
tokenized_dataset = dataset.map(preprocess_data, batched=True)

2.3 设置参数并进行 SFT 训练

定义训练参数
定义Trainer
SFT训练

# 定义训练参数
training_args = TrainingArguments(
    output_dir="./sft_model",          # 输出目录
    num_train_epochs=3,                # 训练轮次
    per_device_train_batch_size=2,     # 每个设备的批量大小
    save_steps=500,                    # 保存检查点的步数
    save_total_limit=2,                # 最多保存的检查点数量
    logging_dir="./logs",              # 日志目录
    logging_steps=10,                  # 日志记录频率
    learning_rate=5e-5,                # 学习率
    evaluation_strategy="steps",       # 评估策略
    eval_steps=50                      # 评估频率
)

# 定义 Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    tokenizer=tokenizer
)

# 开始训练
trainer.train()

2.4 保存模型

保存微调后的模型

model.save_pretrained("./sft_model")
tokenizer.save_pretrained("./sft_model")

3. Tips

微调调的是什么呢？是对模型权重和参数的调整；
除了SFT，常见的微调方式还有LoRA、CFT、QLoRA、RLHF等等；
微调的核心目标是让大语言模型（LLM）在保持其通用能力的同时，在某一项特定任务上表现出卓越的性能；
监督微调（SFT）受欢迎的原因之一是仅需少量高质量的标注数据，就能显著提升大语言模型在特定任务上的效果；

三、RAG与SFT的对比

特性 RAG SFT 核心机制 检索外部知识 + 动态生成修改模型权重以适应特定任务 数据需求 外部知识库/动态数据源高质量标注数据 计算与存储成本 较低（无需训练模型）较高（需微调模型） 适用场景 开放域、动态信息、实时知识封闭域、明确定义的任务 灵活性与扩展性 高（可快速更新知识库）低（需重新微调） 时间与资金成本 较低较高 输出质量 依赖外部知识质量依赖微调数据质量

共同点：

RAG 和 SFT 都利用了预训练语言模型的基础能力，避免了从头训练模型的高昂成本。

今天的分享就到这里，如果对您有帮助，请点个关注再走吧！！

hsf框架

上一篇：主流大模型精调方式的系统对比（模型精度）
下一篇：Linux文件系统结构全解析（简述linux文件系统体系结构）

SFT 和 RAG:大模型的‘内功’与‘外挂’

一、RAG（检索增强生成，Retrieval-Augmented Generation）

1. 什么是RAG？

2. RAG的运行流程

检索阶段

生成阶段

输出结果

二、SFT（监督微调，Supervised Fine-Tuning）

1. 什么是SFT？

2. SFT训练流程

2.1 加载预训练模型和 Tokenizer

2.2 准备数据集

2.3 设置参数并进行 SFT 训练

2.4 保存模型

3. Tips

三、RAG与SFT的对比

相关推荐

取消回复欢迎你发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

(转载)Python爬虫框架Scrapy入门与实践

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

SFT 和 RAG:大模型的‘内功’与‘外挂’

一、RAG（检索增强生成，Retrieval-Augmented Generation）

1. 什么是RAG？

2. RAG的运行流程

检索阶段

生成阶段

输出结果

二、SFT（监督微调，Supervised Fine-Tuning）

1. 什么是SFT？

2. SFT训练流程

2.1 加载预训练模型和 Tokenizer

2.2 准备数据集

2.3 设置参数并进行 SFT 训练

2.4 保存模型

3. Tips

三、RAG与SFT的对比

相关推荐

取消回复欢迎 你 发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

(转载)Python爬虫框架Scrapy入门与实践

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

取消回复欢迎你发表评论: