百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

论文解读:小模型是较弱的工具学习者:多模型代理

ccwgpt 2024-10-04 13:59 37 浏览 0 评论

论文地址:https://arxiv.org/html/2401.07324v1

大型语言模型 (LLM) 代理显着扩展了独立 LLM 的功能,使它们能够与外部工具(例如 API、函数)交互并以自我指导的方式完成复杂的任务。当工具更新时,整个法学硕士可能需要重新培训。特别是对于较小的模型,能力限制特别明显。作者提出的多 LLM 代理框架α-UMi。 该多LLM代理包括规划器、调用器和摘要器,用于与外部工具交互以完成用户的复杂指令。


方法论:

工具学习代理是旨在帮助用户通过一系列决策过程和工具使用来完成任务的系统 。工具学习任务对法学硕士的能力提出了很高的要求,包括任务规划、工具选择和调用、结果总结等。 使用单一开源法学硕士应对所有这些功能,尤其是在选择较小的法学硕士时,似乎具有挑战性。引入了 α-UMi框架,将工具学习任务分解为三个子任务,并将每个子任务分配给专门的LLM。 这些模型根据其在工具使用中的角色进行区分,每个模型都有独特的任务定义、系统提示和模型输入。

规划器:承担规划和决策的责任,作为我们代理框架的“大脑”。规划器生成下一步的决策:

(1) 如果决策是“下一步:调用者”,则调用器将被激活,并且将生成调用工具的操作。

(2) 如果决策是“下一步:摘要器”,则摘要器将被激活,为用户生成最终答案,代理执行将结束。

(3) 如果决策为“下一步:放弃”,则表示用户的指令在当前情况下无法解决,系统将被终止。

调用器:与代码解释器和API等环境交互需要LLM生成合法且有用的代码或请求,这可能会在微调 中与其他能力(例如推理和一般响应生成)发生冲突。 因此训练专门的调用者来生成使用工具的操作。

摘要器:代理的最终响应旨在向用户提供信息丰富且有用的信息,这与主要侧重于规划和推理的基本原理不同,引导模型集中精力总结执行轨迹并向用户呈现答案。

全局到局部的渐进微调 ,

第一阶段,LLM主干在原始训练数据集上进行训练,不区分子任务,从而增强对工具学习任务的全面理解。 创建该 LLM 主干的三个副本以分别实例化规划器、调用器和摘要器。

第二阶段,训练数据集被重新组织成适合每个法学硕士在工具使用中的角色的新数据集,并对规划者、调用者和总结者在各自的数据集上进行持续微调,微调目标分别是生成基本原理、行动和最终答案。

实验设置如下:

1、基准测试,在四个工具学习基准上评估了框架的有效性:ToolBenchqin、ToolAlpaca、 MATH和GSM8K。 为了促进我们框架的训练,我们使用 gpt-3.5-turbo-1106 OpenAI和 gpt-4 OpenAI 收集训练集的执行轨迹。

2、指标 ,ToolBench的测试集涉及通过RapidAPI调用API ,此外,我们还检查 API 名称幻觉的频率以及智能体在每一步决策的准确性 (Plan ACC),包括工具调用、答案生成和放弃决策。对于 ToolAlpaca,评估过程正确率(Proc.)和最终答案正确率(Ans.),均由 GPT-4 评估。 在 MATH 和 GSM8K 的情况下,将最终答案准确性(ACC)作为关键指标。

3、实施细节,在第一阶段,我们对主干LLM进行微调,学习率为5e-5,持续2个epoch。 然后,我们创建这个微调主干的三个副本,分别实例化规划器、调用器和摘要器。 在第二阶段,我们对三个 LLM 进行微调,学习率降低为 1e-5。 规划器和调用器经过 1 个 epoch 的微调,而摘要器经过 2 个 epoch 的微调。

4、基线,与三种基线方法进行比较,Single-LLM是指传统的single-LLM工具学习方法,Multi-LLMone-stage涉及直接在自己的子任务数据集上微调规划器、调用器和摘要器,而不采用我们的两阶段微调策略,Single-LLMmulti-task指使用同一个法学硕士来履行计划者、调用者和总结者的角色。

结果:

α-UMi 在各种工具学习基准测试中均优于 Single-LLM、Multi-LLMone-stage和 Single-LLMmulti-task。

α-UMi 将复杂的任务分解为更简单的任务,减轻LLM的工作量。

α-UMi 在提示设计方面提供了更高的灵活性,为每个 LLM 创建特定的提示和模型输入,以充分利用其在子任务中的功能。

从全局到局部渐进微调(GLPFT)策略对于增强我们的多LLM系统中的微调过程至关重要。

α-UMi旨在通过集成多个LLM形成一个代理来减轻LLM在工具使用任务中的工作量,特别适合开源、小型LLM。

点评:

由于资源和成本的限制,大多数企业无法获取更大更优秀的大模型,充分利用开源的小模型,通过微调它们的能力,使其部分增强,分别执行不同的子任务来实现复杂任务的执行能力。这是一个有趣的思路和有益的尝试,当然选择这样的小模型需要有一个相当全面的能力评估,越强大的小模型作为基础模型来做后面的微调效果越好,当然微调的方法(SPIN、反实时DPO)以及数据集(自蒸馏等)还可以有更多优化完善的地方。

相关推荐

自己动手写Android数据库框架_android开发数据库搭建

http://blog.csdn.net/feiduclear_up/article/details/50557590推荐理由关于Android数据库操作,由于每次都要自己写数据库操作,每次还得去...

谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic

智东西编译|金碧辉编辑|程茜智东西5月28日消息,据科技媒体TheDecoder5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude3.7...

工信部:着力推动大模型算法、框架等基础性原创性的技术突破

工信部新闻发言人今日在发布会上表示,下一步,我们将坚持突出重点领域,大力推动制造业数字化转型,推动人工智能创新应用。主要从以下四个方面着力。一是夯实人工智能技术底座。通过科技创新重大项目,着力推动大模...

乒乓反复纠结“框架不稳定”的三个小误区

很多球友由于对框架的认知不清晰,往往会把“框架不稳定”当成一种心理负担,从而影响学球进度,其典型状态就是训练中有模有样,一旦进入实战,就像被捆住了手脚。通过训练和学习,结合“基本功打卡群”球友们交流发...

前AMD、英特尔显卡架构师Raja再战GPU,号称要全面重构堆栈

IT之家8月5日消息,知名GPU架构师拉贾科杜里(RajaKoduri)此前曾先后在AMD和英特尔的显卡部门担任要职。而在今日,由Raja创立的GPU软件与IP初创企...

三种必须掌握的嵌入式开发程序架构

前言在嵌入式软件开发,包括单片机开发中,软件架构对于开发人员是一个必须认真考虑的问题。软件架构对于系统整体的稳定性和可靠性是非常重要的,一个合适的软件架构不仅结构清晰,并且便于开发。我相...

怪不得别人3秒就知道软考案例怎么做能50+

软考高级统一合格标准必须三科都达到45分,案例分析也一直是考生头疼的一门,但是掌握到得分点,案例能不能50+还不是你们说了算吗?今天就结合架构案例考点,分享实用的备考攻略~一、吃透考点,搭建知识框架从...

UML统一建模常用图有哪些,各自的作用是什么?一篇文章彻底讲透

10万+爆款解析:9大UML图实战案例,小白也能秒懂!为什么需要UML?UML(统一建模语言)是软件开发的“蓝图”,用图形化语言描述系统结构、行为和交互,让复杂需求一目了然。它能:降低沟通成本避...

勒索软件转向云原生架构,直指备份基础设施

勒索软件组织和其他网络犯罪分子正越来越多地将目标对准基于云的备份系统,对久已确立的灾难恢复方法构成了挑战。谷歌安全研究人员在一份关于云安全威胁演变的报告中警告称,随着攻击者不断改进数据窃取、身份泄露和...

ConceptDraw DIAGRAM:释放创意,绘就高效办公新未来

在当今数字化时代,可视化工具已成为提升工作效率和激发创意的关键。ConceptDrawDIAGRAM,作为一款世界顶级的商业绘图软件,凭借其强大的功能和用户友好的界面,正逐渐成为众多专业人士的首选绘...

APP 制作界面设计教程:一步到位_app界面设计模板一套

想让APP界面设计高效落地,无需繁琐流程,掌握“框架搭建—细节填充—体验优化”三步法,即可一步到位完成专业级设计。黄金框架搭建是基础。采用“三三制布局”:将屏幕横向三等分,纵向保留三...

MCP 的工作原理:关键组件_mcp部件

以下是MCP架构的关键组件:MCP主机:像ClaudeDesktop、GitHubCopilot或旅行助手这样的AI智能体,它们希望通过MCP协议访问工具、资源等。MCP主机会...

软件架构_软件架构师工资一般多少

软件架构师自身需要是程序员,并且必须一直坚持做一线程序员。软件架构应该是能力最强的一群程序员,他们通常会在自身承接编程任务的同时,逐渐引导整个团队向一个能够最大化生产力的系统设计方向前进。软件系统的架...

不知不觉将手机字体调大!老花眼是因为“老了吗”?

现在不管是联系、交友,还是购物,都离不开手机。中老年人使用手机的时间也在逐渐加长,刷抖音、看短视频、发朋友圈……看手机的同时,人们也不得不面对“视力危机”——老花眼,习惯眯眼看、凑近看、瞪眼看,不少人...

8000通用汉字学习系列讲座(第046讲)

[表声母字]加(续)[从声汉字]伽茄泇迦枷痂袈笳嘉驾架咖贺瘸(计14字)嘉[正音]标准音读jiā。[辨形]上下结构,十四画。会意形声字,从壴从加,加也表声。注:从壴,字义与鼓乐有关;从加,字义与...

取消回复欢迎 发表评论: