百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

SFT 和 RAG:大模型的‘内功’与‘外挂’

ccwgpt 2025-07-14 15:18 5 浏览 0 评论

尽管大语言模型(LLM)的能力令人眼前一亮,但仍然面临一些关键问题,例如知识更新滞后、事实性错误以及缺乏专业领域的知识等等。

关键问题 问题分析 知识更新滞后 LLM 的训练数据往往是静态的。无法实时获取最新信息。 事实性错误(幻觉) LLM 在生成文本时可能会产生“幻觉”,即生成的内容与事实不符。 缺乏专业领域的知识 LLM 的训练数据通常是通用数据,可能无法覆盖特定领域的专业知识。

为了应对这些问题,RAG(检索增强生成,Retrieval-Augmented Generation)和SFT(监督微调,Supervised Fine-Tuning)是两种重要的技术手段。它们分别从不同的角度解决了大模型的局限性,并且在某些场景下可以协同工作,进一步提升模型性能。

一、RAG(检索增强生成,Retrieval-Augmented Generation)

1. 什么是RAG?

RAG 的全称是 Retrieval-Augmented Generation ,翻译为“检索增强生成”。

  • 检索 :指的是从外部知识库中检索相关信息。
  • 增强生成 :将检索到的知识传递给大语言模型(LLM),使其能够参考这些信息生成更准确、更相关的回答。

简单来说,RAG 是一种结合了“检索”和“生成”的技术框架,通过引入外部知识库来增强大语言模型的能力,从而解决模型训练数据有限或过时的问题。

2. RAG的运行流程

检索阶段

检索是 RAG 流程的第一步,其目标是从外部知识库中提取与用户输入相关的信息。具体过程如下:

  • 输入查询:用户提出一个问题或一段文本,作为系统的输入。例如:“请解释量子计算的基本原理。”
  • 信息检索:检索模型根据输入查询,从知识库、数据库或其他外部来源(如文档集合、网页内容等)中抓取相关信息。检索范围取决于输入查询的内容。例如,如果问题是关于医学领域的专业术语,系统可能会优先检索医学文献。
  • 向量化处理:检索到的信息会被转化为高维度空间中的向量表示(即嵌入向量)。这些向量能够捕捉语义信息,并存储在专门的向量数据库中。
  • 排序与筛选:向量模型基于输入查询与知识库中信息的相关性,对检索到的内容进行排序。相关性得分最高的文档或段落会被选中,作为后续生成阶段的参考依据。

生成阶段

生成阶段是 RAG 的核心环节,利用检索到的信息为用户提供高质量的回答。具体步骤如下:

  • 输入整合:检索到的相关信息与用户的原始输入一起传递给生成模型(如 DeepSeek、Qwen 等)。这些补充信息为生成模型提供了额外的事实背景和上下文支持。
  • 文本生成:生成模型基于整合后的输入,生成连贯且语义准确的文本回复。由于引入了外部知识,生成的内容通常更加精准,尤其是在涉及专业领域或特定主题时。
  • 后处理优化:生成的文本可能会经过额外的后处理步骤,以确保语法正确性和语义连贯性。例如,系统可以调整句式结构、消除冗余信息,或者对生成内容进行格式化处理。

输出结果

  • 最终,系统将生成的文本返回给用户。这些回复不仅更加准确,也更具语境相关性,因为它们基于检索模型提供的权威信息。

二、SFT(监督微调,Supervised Fine-Tuning)

1. 什么是SFT?

SFT(Supervised Fine-Tuning) 是指在预训练模型的基础上,利用标注数据对其进行监督学习的微调过程。预训练模型通常是在大规模无标注数据上训练得到的通用模型,而SFT则是通过引入与目标任务相关的标注数据,调整模型参数以适配具体任务需求。

2. SFT训练流程

下面我将使用 Hugging Face 的 transformers 库结合一个预训练的语言模型 —GPT-2为例,通过 SFT 微调它来完成问答任务。

2.1 加载预训练模型和 Tokenizer

# 加载预训练模型和分词器
model_name = "gpt2"  # 使用 GPT-2 作为基础模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 如果 tokenizer 没有设置 pad_token,则手动添加
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

2.2 准备数据集

# 示例SFT数据格式:输入-输出对
data = [
    {"input": "What is the capital of France?", "output": "The capital of France is Paris."},
    {"input": "Who wrote 'Hamlet'?", "output": "William Shakespeare wrote 'Hamlet'."},
    {"input": "Explain what AI is.", "output": "AI stands for Artificial Intelligence, which simulates human intelligence."}
]

# 将数据转换为 Hugging Face Dataset 格式
def preprocess_data(examples):
    inputs = [example["input"] for example in examples]
    outputs = [example["output"] for example in examples]
    
    # Tokenize 输入和输出,超过64会被截断(truncation)
    tokenized_inputs = tokenizer(inputs, padding="max_length", truncation=True, max_length=64)
    tokenized_outputs = tokenizer(outputs, padding="max_length", truncation=True, max_length=64)
    
    # 构造 labels(目标输出)
    tokenized_inputs["labels"] = tokenized_outputs["input_ids"]
    return tokenized_inputs

# 转换为 Dataset 对象,方便后续训练
dataset = Dataset.from_list(data)
tokenized_dataset = dataset.map(preprocess_data, batched=True)

2.3 设置参数并进行 SFT 训练

  • 定义训练参数
  • 定义Trainer
  • SFT训练
# 定义训练参数
training_args = TrainingArguments(
    output_dir="./sft_model",          # 输出目录
    num_train_epochs=3,                # 训练轮次
    per_device_train_batch_size=2,     # 每个设备的批量大小
    save_steps=500,                    # 保存检查点的步数
    save_total_limit=2,                # 最多保存的检查点数量
    logging_dir="./logs",              # 日志目录
    logging_steps=10,                  # 日志记录频率
    learning_rate=5e-5,                # 学习率
    evaluation_strategy="steps",       # 评估策略
    eval_steps=50                      # 评估频率
)

# 定义 Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    tokenizer=tokenizer
)

# 开始训练
trainer.train()

2.4 保存模型

  • 保存微调后的模型
model.save_pretrained("./sft_model")
tokenizer.save_pretrained("./sft_model")

3. Tips

  • 微调调的是什么呢?是对模型权重和参数的调整;
  • 除了SFT,常见的微调方式还有LoRA、CFT、QLoRA、RLHF等等;
  • 微调的核心目标是让大语言模型(LLM)在保持其通用能力的同时,在某一项特定任务上表现出卓越的性能;
  • 监督微调(SFT)受欢迎的原因之一是仅需少量高质量的标注数据,就能显著提升大语言模型在特定任务上的效果;

三、RAG与SFT的对比

特性 RAG SFT 核心机制 检索外部知识 + 动态生成 修改模型权重以适应特定任务 数据需求 外部知识库/动态数据源 高质量标注数据 计算与存储成本 较低(无需训练模型) 较高(需微调模型) 适用场景 开放域、动态信息、实时知识 封闭域、明确定义的任务 灵活性与扩展性 高(可快速更新知识库) 低(需重新微调) 时间与资金成本 较低 较高 输出质量 依赖外部知识质量 依赖微调数据质量

共同点:

  • RAG 和 SFT 都利用了预训练语言模型的基础能力,避免了从头训练模型的高昂成本。

今天的分享就到这里,如果对您有帮助,请点个关注再走吧!!

相关推荐

RACI矩阵:项目管理中的角色与责任分配利器

作者:赵小燕RACI矩阵RACI矩阵是项目管理中的一种重要工具,旨在明确团队在各个任务中的角色和职责。通过将每个角色划分为负责人、最终责任人、咨询人和知情人四种类型,RACI矩阵确保每个人都清楚自己...

在弱矩阵组织中,如何做好项目管理工作?「慕哲制图」

慕哲出品必属精品系列在弱矩阵组织中,如何做好项目管理工作?【慕哲制图】-------------------------------慕哲制图系列0:一图掌握项目、项目集、项目组合、P2、商业分析和NP...

Scrum模式:每日站会(Daily Scrum)

定义每日站会(DailyScrum)是一个Scrum团队在进行Sprint期间的日常会议。这个会议的主要目的是为了应对Sprint计划中的不断变化,确保团队能够有效应对挑战并达成Sprint目标。为...

大家都在谈论的敏捷开发&Scrum,到底是什么?

敏捷开发作为一种开发模式,近年来深受研发团队欢迎,与瀑布式开发相比,敏捷开发更轻量,灵活性更高,在当下多变环境下,越来越多团队选择敏捷开发。什么是敏捷?敏捷是一种在不确定和变化的环境中,通过创造和响应...

敏捷与Scrum是什么?(scrum敏捷开发是什么)

敏捷是一种思维模式和哲学,它描述了敏捷宣言中的一系列原则。另一方面,Scrum是一个框架,规定了实现这种思维方式的角色,事件,工件和规则/指南。换句话说,敏捷是思维方式,Scrum是规定实施敏捷哲学的...

敏捷项目管理与敏捷:Scrum流程图一览

敏捷开发中的Scrum流程通常可以用一个简单的流程图来表示,以便更清晰地展示Scrum框架的各个阶段和活动。以下是一个常见的Scrum流程图示例:这个流程图涵盖了Scrum框架的主要阶段和活动,其中包...

一张图掌握项目生命周期模型及Scrum框架

Mockito 的最佳实践(mock方法)

记得以前面试的时候,面试官问我,平常开发过程中自己会不会测试?我回答当然会呀,自己写的代码怎么不测呢。现在想想我好像误会他的意思了,他应该是想问我关于单元测试,集成测试以及背后相关的知识,然而当时说到...

EffectiveJava-5-枚举和注解(java枚举的作用与好处)

用enum代替int常量1.int枚举:引入枚举前,一般是声明一组具名的int常量,每个常量代表一个类型成员,这种方法叫做int枚举模式。int枚举模式是类型不安全的,例如下面两组常量:性别和动物种...

Maven 干货 全篇共:28232 字。预计阅读时间:110 分钟。建议收藏!

Maven简介Maven这个词可以翻译为“知识的积累”,也可以翻译为“专家”或“内行”。Maven是一个跨平台的项目管理工具。主要服务于基于Java平台的项目构建、依赖管理和项目信息管理。仔...

Java单元测试框架PowerMock学习(java单元测试是什么意思)

前言高德的技术大佬在谈论方法论时说到:“复杂的问题要简单化,简单的问题要深入化。”这句话让我感触颇深,这何尝不是一套编写代码的方法——把一个复杂逻辑拆分为许多简单逻辑,然后把每一个简单逻辑进行深入实现...

Spring框架基础知识-第六节内容(Spring高级话题)

Spring高级话题SpringAware基本概念Spring的依赖注入的最大亮点是你所有的Bean对Spring容器的存在是没有意识的。但是在实际的项目中,你的Bean必须要意识到Spring容器...

Java单元测试浅析(JUnit+Mockito)

作者:京东物流秦彪1.什么是单元测试(1)单元测试环节:测试过程按照阶段划分分为:单元测试、集成测试、系统测试、验收测试等。相关含义如下:1)单元测试:针对计算机程序模块进行输出正确性检验工作...

揭秘Java代码背后的质检双侠:JUnit与Mockito!

你有没有发现,现在我们用的手机App、逛的网站,甚至各种智能设备,功能越来越复杂,但用起来却越来越顺畅,很少遇到那种崩溃、卡顿的闹心事儿?这背后可不是程序员一拍脑袋写完代码就完事儿了!他们需要一套严谨...

单元测试框架哪家强?Junit来帮忙!

大家好,在前面的文章中,给大家介绍了以注解和XML的方式分别实现IOC和依赖注入。并且我们定义了一个测试类,通过测试类来获取到了容器中的Bean,具体的测试类定义如下:@Testpublicvoid...

取消回复欢迎 发表评论: