NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill
ccwgpt 2025-06-10 13:40 32 浏览 0 评论
本文共同第一作者为新加坡国立大学博士生铁宸睿和多伦多大学研究助理/本科生孙圣翔。合作者为朱锦轩、刘益伟、郭京翔、胡越、陈浩楠、陈俊廷、吴睿海。通讯作者为新加坡国立大学计算机学院助理教授邵林,研究方向为机器人和人工智能。
视觉语言模型(Vision-Language Models, VLMs),为真实环境中的机器人操作任务提供了极具潜力的解决方案。
尽管 VLMs 取得了显著进展,机器人仍难以胜任复杂的长时程任务(如家具装配),主要受限于人类演示数据和训练样本的稀缺性。
为解决这一问题,研究团队提出 Manual2Skill,一种基于 VLMs 的创新框架,使机器人能通过高级视觉说明书自主理解并执行家具装配任务,模仿人类学习装配的过程。该方法弥合了抽象指令与物理执行之间的鸿沟,显著提升了机器人在真实操作场景中的实用性。
目前,该论文已被机器人领域顶级会议 Robotics: Science and Systems XXI(RSS 2025)接收。
- 论文标题:Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models
- 论文链接:https://arxiv.org/abs/2502.10090
- 项目主页:https://owensun2004.github.io/Furniture-Assembly-Web/
研究背景
家具装配是一项复杂的长时程任务,要求机器人:(A) 理解所有零件的拼接关系和顺序;(B) 估计每一步拼接时部件的位姿;(C) 生成物理可行的动作以完成部件组装。
尽管许多计算机视觉方法通过几何或语义技术在部件位姿预测(B)方面取得显著成果,但它们大多忽视了同样关键的拼接顺序理解(A)和动作生成(C)环节 [1, 2]。
现有的端到端机器人装配系统通常依赖模仿学习或强化学习。虽然在某些场景下有效,但这些方法需要大规模数据集和大量计算资源,难以推广至真实环境中的通用长时程操作任务 [3, 4]。
近年来,视觉语言模型(VLMs)在高层规划、环境理解甚至直接机器人控制方面展现出潜力。部分研究尝试整合这些能力用于机器人装配,但多局限于简单几何物体且在真实装配场景中鲁棒性不足 [5]。
关键问题在于,现有 VLM 方法(乃至多数当前方法)缺乏对结构化外部指导(如人工设计的说明书)的利用。这种缺失限制了它们在依赖抽象符号指令的复杂装配任务中的表现。
相比之下,人类能够从抽象的说明书中提取信息并学习操作技能,这揭示了机器人能力的一个重要缺口:从抽象的、为人类设计的指导信息中学习物体操作技能。
凭借强大的视觉与语言推理能力,VLMs 为弥合这一缺口提供了独特机遇。通过挖掘说明书中的结构化知识,VLMs 可使机器人更高效可靠地完成复杂多步骤装配任务。
Manual2Skill:
基于 VLM 的说明书引导式机器人装配框架
为解决复杂长时程装配的局限性,研究团队开发了 Manual2Skill —— 一种创新框架,利用 VLMs 将基于说明书的视觉指令转化为机器人装配技能。
Manual2Skill 包含三个核心阶段:
- 层级化装配图生成:通过 VLM 解析说明书图像,构建描述家具部件结构关系的层级化装配图。
- 分步骤位姿估计:预测每个装配步骤中涉及的家具部件的精确 6D 位姿。
- 动作生成与执行:将位姿信息转化为可执行的机器人轨迹。
图 1:Manual2Skill 框架
该框架解决了现有机器人装配方法的两大核心限制:
- 通过将人类理解的抽象示意图转化为结构化装配层级图与部件位姿,使机器人能从说明书提取可操作信息,避免了对大规模高质量演示数据集的依赖。
- 将装配层级图作为结构化装配信息的核心表征,为真实装配任务提供通用解决方案,适用于所有多步骤复杂装配问题。
阶段 I: 层级化装配图生成
Manual2Skill 的首阶段将人类可理解的说明书转化为机器人可执行的任务规划。通过视觉语言模型(GPT-4o)对说明书示意图和预装配场景图像进行联合推理,生成编码家具部件与子组件结构关系的层级化装配图。
在此图中:
- 叶节点代表原子部件。
- 非叶节点表示通过连接部件/子组件形成的复合结构。
- 从叶节点向根节点遍历可获得完整的逐步装配流程。
为构建该图,Manual2Skill 通过整合多模态输入,特别是多张图像的视觉信息与文本指令组成的多轮提示序列,完成两个关键子阶段:
- 跨域视觉理解:通过视觉提示技术(如 Set-Of-Marks 和 GroundingDINO)和几何视觉推理,GPT-4o 将预装配场景图片中的物理部件与其说明书图示进行语义关联,从而解析每个部件的作用与位置。
- 结构化信息提取:基于已识别的部件信息,使用链式思维(Chain-of-Thought)、由简至繁(Least–To–Most)和上下文学习(In-Context Learning)等提示技术,判断说明书中每个步骤涉及的特定部件。
该结构化图表征为下游位姿估计与运动规划奠定基础,确保复杂装配任务的精准顺序执行。
阶段 II: 分步骤装配位姿估计
在层级化装配图确定部件组合与装配顺序后,本阶段预测每个装配步骤中所有部件的 6D 位姿,实现部件间的精确物理对齐。
与过往方法通常一次预测整个装配过程中所有零件的位姿不同,这里我们对每个装配步骤,预测这一步中涉及到的所有部件/子组件的位姿,这一设置既更贴合真实世界中的拼装过程,也能使模型避免单次输入部件数量过多引起的性能下降。
同时我们还发现,尽管家具的形态有很大差别,但其基本部件的连接方式(比如板和棍的连接)较为固定,这种分步预测的方法能使模型更好地学习到这种基本连接方式,从而对测试集的物体实现更高的预测精度。
为实现此目标,跨模态位姿估计模型对说明书图像与家具部件 3D 点云进行联合推理。模型架构包含四个核心组件:
- 图像编码器(E_I):从说明书图像提取语义特征,捕获部件关系与朝向的视觉线索。
- 点云编码器(E_P):编码各部件的点云数据。
- 跨模态融合(E_G):使用图神经网络(GNN)整合图像与点云特征。
- 位姿回归器(R):从融合特征预测各部件的 SE(3) 位姿。
为确保预测的鲁棒性与准确性,模型采用复合损失函数:
- SE(3) 变换误差(旋转测地距离 + 平移 MSE)
- 点云对齐损失(Chamfer 距离)
- 可互换部件的置换不变损失(评估所有有效排列并选择最小损失方案)
该设计使模型能够处理可变数量的输入部件,适应视觉相似/对称部件,以及泛化到训练集上未见过的新物体。
阶段 III: 机器人装配动作生成与执行
最终阶段将预测位姿转化为真实世界的机器人动作,实现装配计划的自主执行。我们在这一阶段使用基于启发式的抓取策略和稳健的运动规划算法,让机械臂抓取对应部件,并将其放置在预测位姿。
- 抓取规划与部件操控
我们使用 FoundationPose 与 SAM 估计场景中所有部件的初始位姿。根据部件几何特征应用启发式抓取策略:
- 棒状部件:沿主轴在质心处抓取。
- 扁平薄片部件:使用夹具/平台固定后沿边界稳定抓取。
- 运动规划与执行
抓取后,机器人使用 RRT-Connect(基于采样的运动规划器)计算从当前位姿到目标位姿的无碰撞轨迹。所有其他物体被视为避障点云。通过锚定位姿在轨迹中段重新评估抓取部件位置,确保精确跟踪与控制。
- 装配插入
最终部件插入是涉及精确对齐与力反馈的接触密集型任务。由于闭环插入的复杂性,目前由人类专家完成。我们会在未来的研究中,整合触觉与力传感器实现自主插入。
实验结果与分析
实验在仿真与真实环境中对多款宜家家具进行,验证 Manual2Skill 的鲁棒性与有效性。
- 层级化装配图生成
图 2:层级化装配图生成结果
我们在 102 本真实宜家家具说明书上测试了我们提出的层级化装配图生成方法的表现,可以看出,对于简单和中等复杂程度的家具(部件数 ≤ 6),我们的方法能比较准确地生成装配图,同时在所有复杂程度的家具上,我们的方法表现均显著优于基线方法。尽管所有方法在复杂家具上表现受限,但随着 VLM 性能的提升,我们方法的表现会随之提升。
图 3:层次化装配图可视化
- 位姿估计
我们从 PartNet 数据集中选取了三类物体(椅子、台灯、桌子),每类物体各 100 个,并且在 Blender 中渲染出这些物体部件组合的示意图作为说明书图片。
图 4:位姿估计实验结果
实验结果表明,凭借多模态特征融合与 GNN 空间关系建模,本方法在全部四个评价指标上超越基线方法。
图 5:位姿估计可视化
- 仿真测试
在 50 件简单至中等难度家具的仿真测试中,Manual2Skill 达成 58% 成功率,显著超越现有启发式方法,验证了层级化装配图、位姿估计与运动规划结合的有效性。
- 实物实验
我们在四款真实宜家家具(Flisat 凳、Variera 架、Sundvik 椅、Knagglig 箱)上测试了我们整套框架,体现了我们的框架在真实机器人装配任务中的可行性和出色表现。
图 6:真实世界家具装配过程可视化
- 零样本扩展
本方法可零样本推广至轮轴、玩具飞机甚至机械臂等手册引导式装配任务,成功率 100%,彰显 VLM-based 方案相比其他方法的泛化优势。
图 7:零样本扩展可视化
结论与展望
本文提出 Manual2Skill,一种开创性框架,通过 VLMs 使机器人能解析人工设计的视觉说明书并自主执行复杂家具装配任务。通过引入层级化图式指令解析与鲁棒位姿估计,Manual2Skill 有效弥合了抽象说明书与物理执行之间的鸿沟。
Manual2Skill 提出了一种新的机器人学习范式,机器人可以从为人类设计的说明书中学习复杂长程的操作技能,相比起收集大量人工示范数据做模仿学习,显著降低了复杂操作技能获取的成本和复杂度。同时,说明书通过抽象图表和符号表示传达操作知识,这种抽象化的表达方式捕获了操作过程的底层结构和核心逻辑,而非仅仅记录表面的动作序列。这种深层次的理解使得获得的技能能够在不同的物体配置、环境条件和机器人实体间实现有效泛化。
参考文献
[1] Yun-Chun Chen, Haoda Li, Dylan Turpin, Alec Jacobson, and Animesh Garg. 「Neural shape mating: Self-supervised object assembly with adversarial shape priors」. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12724–12733, 2022.
[2] Benjamin Jones, Dalton Hildreth, Duowen Chen, Ilya Baran, Vladimir G Kim, and Adriana Schulz. 「Automate: A dataset and learning approach for automatic mating of cad assemblies」. ACM Transactions on Graphics (TOG), 40(6):1–18, 2021.
[3] Mingxin Yu, Lin Shao, Zhehuan Chen, Tianhao Wu, Qingnan Fan, Kaichun Mo, and Hao Dong. 「Roboassembly: Learning generalizable furniture assembly policy in a novel multi-robot contact-rich simulation environment」. arXiv preprint arXiv:2112.10143, 2021.
[4] Zuyuan Zhu and Huosheng Hu. 「Robot learning from demonstration in robotic assembly: A survey」. Robotics, 7(2):17, 2018.
[5] Andrew Goldberg, Kavish Kondap, Tianshuang Qiu, Zehan Ma, Letian Fu, Justin Kerr, Huang Huang, Kaiyuan Chen, Kuan Fang, and Ken Goldberg. 「Blox-net: Generative design-for-robot-assembly using vlm supervision, physics simulation, and a robot with reset」. arXiv preprint arXiv:2409.17126, 2024.
相关推荐
- 自己动手写Android数据库框架_android开发数据库搭建
-
http://blog.csdn.net/feiduclear_up/article/details/50557590推荐理由关于Android数据库操作,由于每次都要自己写数据库操作,每次还得去...
- 谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic
-
智东西编译|金碧辉编辑|程茜智东西5月28日消息,据科技媒体TheDecoder5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude3.7...
- 工信部:着力推动大模型算法、框架等基础性原创性的技术突破
-
工信部新闻发言人今日在发布会上表示,下一步,我们将坚持突出重点领域,大力推动制造业数字化转型,推动人工智能创新应用。主要从以下四个方面着力。一是夯实人工智能技术底座。通过科技创新重大项目,着力推动大模...
- 乒乓反复纠结“框架不稳定”的三个小误区
-
很多球友由于对框架的认知不清晰,往往会把“框架不稳定”当成一种心理负担,从而影响学球进度,其典型状态就是训练中有模有样,一旦进入实战,就像被捆住了手脚。通过训练和学习,结合“基本功打卡群”球友们交流发...
- 前AMD、英特尔显卡架构师Raja再战GPU,号称要全面重构堆栈
-
IT之家8月5日消息,知名GPU架构师拉贾科杜里(RajaKoduri)此前曾先后在AMD和英特尔的显卡部门担任要职。而在今日,由Raja创立的GPU软件与IP初创企...
- 三种必须掌握的嵌入式开发程序架构
-
前言在嵌入式软件开发,包括单片机开发中,软件架构对于开发人员是一个必须认真考虑的问题。软件架构对于系统整体的稳定性和可靠性是非常重要的,一个合适的软件架构不仅结构清晰,并且便于开发。我相...
- 怪不得别人3秒就知道软考案例怎么做能50+
-
软考高级统一合格标准必须三科都达到45分,案例分析也一直是考生头疼的一门,但是掌握到得分点,案例能不能50+还不是你们说了算吗?今天就结合架构案例考点,分享实用的备考攻略~一、吃透考点,搭建知识框架从...
- UML统一建模常用图有哪些,各自的作用是什么?一篇文章彻底讲透
-
10万+爆款解析:9大UML图实战案例,小白也能秒懂!为什么需要UML?UML(统一建模语言)是软件开发的“蓝图”,用图形化语言描述系统结构、行为和交互,让复杂需求一目了然。它能:降低沟通成本避...
- 勒索软件转向云原生架构,直指备份基础设施
-
勒索软件组织和其他网络犯罪分子正越来越多地将目标对准基于云的备份系统,对久已确立的灾难恢复方法构成了挑战。谷歌安全研究人员在一份关于云安全威胁演变的报告中警告称,随着攻击者不断改进数据窃取、身份泄露和...
- ConceptDraw DIAGRAM:释放创意,绘就高效办公新未来
-
在当今数字化时代,可视化工具已成为提升工作效率和激发创意的关键。ConceptDrawDIAGRAM,作为一款世界顶级的商业绘图软件,凭借其强大的功能和用户友好的界面,正逐渐成为众多专业人士的首选绘...
- APP 制作界面设计教程:一步到位_app界面设计模板一套
-
想让APP界面设计高效落地,无需繁琐流程,掌握“框架搭建—细节填充—体验优化”三步法,即可一步到位完成专业级设计。黄金框架搭建是基础。采用“三三制布局”:将屏幕横向三等分,纵向保留三...
- MCP 的工作原理:关键组件_mcp部件
-
以下是MCP架构的关键组件:MCP主机:像ClaudeDesktop、GitHubCopilot或旅行助手这样的AI智能体,它们希望通过MCP协议访问工具、资源等。MCP主机会...
- 软件架构_软件架构师工资一般多少
-
软件架构师自身需要是程序员,并且必须一直坚持做一线程序员。软件架构应该是能力最强的一群程序员,他们通常会在自身承接编程任务的同时,逐渐引导整个团队向一个能够最大化生产力的系统设计方向前进。软件系统的架...
- 不知不觉将手机字体调大!老花眼是因为“老了吗”?
-
现在不管是联系、交友,还是购物,都离不开手机。中老年人使用手机的时间也在逐渐加长,刷抖音、看短视频、发朋友圈……看手机的同时,人们也不得不面对“视力危机”——老花眼,习惯眯眼看、凑近看、瞪眼看,不少人...
- 8000通用汉字学习系列讲座(第046讲)
-
[表声母字]加(续)[从声汉字]伽茄泇迦枷痂袈笳嘉驾架咖贺瘸(计14字)嘉[正音]标准音读jiā。[辨形]上下结构,十四画。会意形声字,从壴从加,加也表声。注:从壴,字义与鼓乐有关;从加,字义与...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- mfc框架 (52)
- abb框架断路器 (48)
- beego框架 (52)
- java框架spring (58)
- grpc框架 (65)
- tornado框架 (48)
- 前端框架bootstrap (54)
- orm框架有哪些 (51)
- 知识框架图 (52)
- ppt框架 (55)
- 框架图模板 (59)
- 内联框架 (52)
- cad怎么画框架 (58)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)