百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

ReAct:大模型提示框架(reactor框架)

ccwgpt 2024-09-14 00:27 42 浏览 0 评论

Yao 等人于 2022 年引入了一个名为 ReAct 的框架,其中 LLM 用于以交错的方式生成推理轨迹(reasoning traces)和特定于任务的操作。

生成推理轨迹允许模型诱导、跟踪和更新行动计划,甚至处理异常。 操作步骤允许与外部源(例如知识库或环境)交互并收集信息。

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包

ReAct 框架可以允许LLM与外部工具交互,以检索更多信息,从而获得更可靠和更真实的响应。

结果表明,ReAct 在语言和决策任务方面的表现可以优于多种最先进的基线。 ReAct 还可以提高LLM的人类可解释性和可信度。 总的来说,作者发现最好的方法是使用 ReAct 与思想链 (CoT) 相结合,允许使用推理过程中获得的内部知识和外部信息。

1、ReAct原理

ReAct 的灵感来自行动(acting)和推理(reasoning)之间的协同作用,它使人类能够学习新任务并做出决策或推理。

思想链 (CoT) 提示显示了LLM执行推理跟踪以生成涉及算术和常识推理等问题的答案的能力 (Wei et al., 2022)。 但缺乏与外部世界的接触或无法更新其知识可能会导致事实幻觉和错误传播等问题。

ReAct 是一种将推理和行动与LLM相结合的通用范式。 ReAct 提示LLM为任务生成口头推理轨迹和行动。 这使得系统能够执行动态推理来创建、维护和调整行动计划,同时还能够与外部环境(例如维基百科)进行交互,以将附加信息合并到推理中。 下图显示了 ReAct 的示例以及执行问答所涉及的不同步骤。

来源:Yao et al., 2022

在上面的示例中,我们传入一个类似于以下HotpotQA问题的提示:

Aside from the Apple Remote, what other devices can control the program Apple Remote was originally designed to interact with?

请注意,上下文中的示例也会添加到提示中,但为了简单起见,我们在此处将其排除。 我们可以看到该模型生成了任务解决轨迹(思考、行动)。 Obs 对应于来自正在交互的环境(例如搜索引擎)的观察。 本质上,ReAct 可以检索信息来支持推理,而推理有助于确定下一步要检索的内容。

2、ReAct提示

为了演示 ReAct 提示的工作原理,让我们按照本文中的一个示例进行操作。

第一步是从训练集中(例如 HotPotQA)选择案例并组成 ReAct 格式的轨迹。 这些在提示中用作少数样本。 轨迹由多个思考-行动-观察步骤组成,如上图所示。 自由形式的思维用于实现不同的任务,例如分解问题、提取信息、执行常识/算术推理、指导搜索公式以及综合最终答案。

以下是 ReAct 提示示例的示例(从论文中获取,为简单起见,缩写为一个示例):

Question What is the elevation range for the area that the eastern sector of the
Colorado orogeny extends into?
Thought 1 I need to search Colorado orogeny, find the area that the eastern sector
of the Colorado orogeny extends into, then find the elevation range of the
area.
Action 1 Search[Colorado orogeny]
Observation 1 The Colorado orogeny was an episode of mountain building (an orogeny) in
Colorado and surrounding areas.
Thought 2 It does not mention the eastern sector. So I need to look up eastern
sector.
Action 2 Lookup[eastern sector]
Observation 2 (Result 1 / 1) The eastern sector extends into the High Plains and is called
the Central Plains orogeny.
Thought 3 The eastern sector of Colorado orogeny extends into the High Plains. So I
need to search High Plains and find its elevation range.
Action 3 Search[High Plains]
Observation 3 High Plains refers to one of two distinct land regions
Thought 4 I need to instead search High Plains (United States).
Action 4 Search[High Plains (United States)]
Observation 4 The High Plains are a subregion of the Great Plains. From east to west, the
High Plains rise in elevation from around 1,800 to 7,000 ft (550 to 2,130
m).[3]
Thought 5 High Plains rise in elevation from around 1,800 to 7,000 ft, so the answer
is 1,800 to 7,000 ft.
Action 5 Finish[1,800 to 7,000 ft]
...

请注意,不同类型的任务使用不同的提示设置。 对于推理最为重要的任务(例如 HotpotQA),任务解决轨迹使用多个思考-行动-观察步骤。 对于涉及大量行动步骤的决策任务,很少使用思考。

3、知识密集型任务的结果

论文首先在问答(HotPotQA)和事实验证(Fever)等知识密集型推理任务上评估 ReAct。 以PaLM-540B为基础模型进行提示。

来源:Yao et al., 2022

使用不同提示方式对 HotPotQA 和 Fever 进行的提示结果表明,ReAct 在这两项任务上总体表现均优于 Act(仅涉及行动)。

我们还可以观察到,ReAct 在 Fever 上的表现优于 CoT,在 HotpotQA 上落后于 CoT。 论文中提供了详细的错误分析。 总之:

  • CoT患有事实幻觉
  • ReAct 的结构约束降低了其制定推理步骤的灵活性
  • ReAct 在很大程度上取决于它检索的信息; 无信息的搜索结果使模型推理脱轨,并导致恢复和重新表达思想的困难

结合并支持 ReAct 和 CoT+Self-Consistency 之间切换的提示方法通常优于所有其他提示方法。

4、决策任务的结果

该论文还报告了展示 ReAct 在决策任务上的性能的结果。 ReAct 在 ALFWorld(基于文本的游戏)和 WebShop(在线购物网站环境)两个基准上进行评估。 两者都涉及复杂的环境,需要推理才能有效地采取行动和探索。

请注意,ReAct 提示针对这些任务进行了不同的设计,但仍保持推理与行动相结合的相同核心理念。 下面是涉及 ReAct 提示的 ALFWorld 问题的示例。

来源:Yao et al., 2022

ReAct 在 ALFWorld 和 Webshop 上的表现都优于 Act。 没有任何思考的行动无法正确地将目标分解为子目标。 对于这些类型的任务,ReAct 中的推理似乎很有优势,但当前基于提示的方法与专家在这些任务上的表现仍然相去甚远。

查看论文以获取更详细的结果。

5、LangChain ReAct使用

下面是 ReAct 提示方法在实践中如何运作的高级示例。 我们将为 LLM 和 LangChain 使用 OpenAI,因为它已经具有内置功能,可以利用 ReAct 框架来构建代理,通过结合 LLM 和不同工具的功能来执行任务。

首先,让我们安装并导入必要的库:

%%capture
# update or install the necessary libraries
!pip install --upgrade openai
!pip install --upgrade langchain
!pip install --upgrade python-dotenv
!pip install google-search-results
 
# import libraries
import openai
import os
from langchain.llms import OpenAI
from langchain.agents import load_tools
from langchain.agents import initialize_agent
from dotenv import load_dotenv
load_dotenv()
 
# load API keys; you will need to obtain these if you haven't yet
os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")
os.environ["SERPER_API_KEY"] = os.getenv("SERPER_API_KEY")
 

现在我们可以配置 LLM、我们将使用的工具以及允许我们将 ReAct 框架与 LLM 和工具一起利用的代理。 请注意,我们使用搜索 API 来搜索外部信息,并使用 LLM 作为数学工具。

llm = OpenAI(model_name="text-davinci-003" ,temperature=0)
tools = load_tools(["google-serper", "llm-math"], llm=llm)
agent = initialize_agent(tools, llm, agent="zero-shot-react-description", verbose=True)

配置完成后,我们现在可以使用所需的查询/提示来运行代理。 请注意,这里我们不希望提供本文中解释的少数样本。

agent.run("Who is Olivia Wilde's boyfriend? What is his current age raised to the 0.23 power?")

链执行如下:

> Entering new AgentExecutor chain...
 I need to find out who Olivia Wilde's boyfriend is and then calculate his age raised to the 0.23 power.
Action: Search
Action Input: "Olivia Wilde boyfriend"
Observation: Olivia Wilde started dating Harry Styles after ending her years-long engagement to Jason Sudeikis — see their relationship timeline.
Thought: I need to find out Harry Styles' age.
Action: Search
Action Input: "Harry Styles age"
Observation: 29 years
Thought: I need to calculate 29 raised to the 0.23 power.
Action: Calculator
Action Input: 29^0.23
Observation: Answer: 2.169459462491557
 
Thought: I now know the final answer.
Final Answer: Harry Styles, Olivia Wilde's boyfriend, is 29 years old and his age raised to the 0.23 power is 2.169459462491557.
 
> Finished chain.

我们得到的输出如下:

"Harry Styles, Olivia Wilde's boyfriend, is 29 years old and his age raised to the 0.23 power is 2.169459462491557."

我们改编自 LangChain 文档中的示例,因此要归功于他们。 我们鼓励学习者探索工具和任务的不同组合。你可以在此处找到此代码的笔记本。


原文链接:ReAct提示框架 - BimAnt

相关推荐

Spring框架基础知识-第四节内容(Spring基础配置)

Spring基础配置Spring框架本身有四大原则:(1)使用POJO进行轻量级和最小侵入式开发。(2)通过依赖注入和基于接口编程实现松耦合。(3)通过AOP和默认习惯进行声明式编程。(4)使...

SpringBoot项目开发实战销售管理系统——项目框架搭建!

项目框架搭建在完成项目的分析和数据库设计后,一般由架构师完成项目框架的搭建,包括项目依赖的添加、项目的配置和项目日志的配置,完成后再开始业务代码的编写。技术栈的搭建新建一个SpringBoot项目,...

从零到一:独立运行若依框架系统并进行本地二次开发

####一、环境准备1.**基础环境**:-JDK1.8+(推荐JDK17)-Maven3.6+-MySQL5.7+(推荐8.0)-Redis5.0+-Node.js16...

单片机时间片轮询程序架构(单片机如何实现精准的时间周期)

时间片轮询法有很多时候都是与操作系统一起被提到,也就是说很多时候是操作系统中使用了这一方法:STM32单片机开发中的RTOS。下文将参考别人的代码,演示建立的一个时间片轮询架构程序的...

Netty主要组件和服务器启动源码分析

1.Netty服务端启动代码publicclassNettyServer{publicstaticvoidmain(String[]args)throwsInterrup...

前端定时任务的神库!快把它加到你的项目中去!

我们常会遇到定时刷新数据、轮询接口、发送提醒等场景,我们常会遇到定时刷新数据、轮询接口、发送提醒等场景。为什么选择cron库?定时任务开发痛点原生setInterval的时间误差累积难以实现复杂的...

如何正确实现一个后台(定时)任务(后台定时任务怎么实现)

相信大家都知道如何在.NET中执行后台(定时)任务。首先我们会选择实现IHostedService接口或者继承BackgroundService来实现后台任务。然后注册到容器内,然后注册到容...

秒杀传统的Linux Crontab,这款开源的定时任务管理系统绝了!

Gocron是一款开源的定时任务管理系统,基于Go语言开发,旨在替代传统的LinuxCrontab。它通过Web界面提供直观的任务管理功能,支持精确到秒的Crontab时间表达式,并具备任务重试、超...

Python 定时任务:schedule 自动执行脚本太方便。

2025年了,还在为Python定时任务头疼?轻量级需求搞什么Celery,schedule三行代码就搞定。这库把定时任务简化到像说人话,但新手直接抄文档容易踩坑。文档只会告诉你怎么设置每10分钟执行...

SpringBoot扩展——定时任务!(基于springboot的校园宿舍管理系统的设计与实现)

定时任务项目开发中会涉及很多需要定时执行的代码,如每日凌晨对前一日的数据进行汇总,或者系统缓存的清理、对每日的数据进行分析和总结等需求,这些都是定时任务。单体系统和分布式系统的分布式任务有很大的区别,...

适合普通开发者和产品经理的PHP应用模板开发AI的SaaS应用框架

简单到傻!Liang_SaaS适合普通开发者和产品经理的PHP应用模板开发AI的SaaS应用框架,利用Php开发AI的SaaS应用框架,是一个强大的内容管理仪表板模板,基于Bootstrap和...

非常实用的15款开源PHP类库(php开源管理系统)

PHP库给开发者提供了一个标准接口,它帮助开发者在PHP里充分利用面向对象编程。这些库为特定类型的内置功能提供了一个标准的API,允许类可以与PHP引擎进行无缝的交互。此外,开发者使用这些类库还可以简...

蜂神榜苹果商店也凑热闹:“520”我爱玩家!

各位看官,今天被朋友圈各类“520”刷屏呢?有没有给你亲爱的家人一份“520”模式的红包呢?苹果商店也给了玩家一个“520”模式的惊喜---再一次提供了多款“1元”价格的游戏!并且此次降价的游戏品质都...

变成气球的猫咪《气球》十一正式推出

墨西哥游戏公司NoodlecakeGames曾开发过《致命框架》、《阿尔托冒险》等优秀佳作,而它旗下的最新游戏《气球》(TheBalloons)在十一的时候就要和大家见面了。游戏中,玩家要操控娃娃...

星座超游爱:狮子遇挑战,处女手抓牢~

teemo跟大家讲了三期太阳星座,也许有很多不热心的小伙伴并不知道是什么东西,今天就小科普一番~在出生的那一天,太阳所落的那个星座,就是每个人的太阳星座,而这恰好就是大家的性格中心,是权势驱力、人格的...

取消回复欢迎 发表评论: