百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

迈向群体智能 | 智源发布首个跨本体具身大小脑协作框架

ccwgpt 2025-05-02 16:55 44 浏览 0 评论

允中 发自 凹非寺

量子位 | 公众号 QbitAI

3月29日,智源研究院在2025中关村论坛“未来人工智能先锋论坛”上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。

视频链接:
https://mp.weixin.qq.com/s/APgi5k53hrJo8lpxcAkE-g

增强长程操作任务能力,打造感知-认知-决策-行动闭环

在具身场景中,长程操作任务是机器人执行复杂任务的核心能力之一。具身大脑RoboBrain融合了机器人任务规划、可操作区域感知、轨迹预测的三维能力,通过将抽象指令映射为具象动作序列,增强长程操作任务的能力。

RoboBrain由三个模块组成:用于任务规划的基座模型、用于可操作区域感知的A-LoRA模块和用于轨迹预测的T-LoRA模块。在推理时,模型首先感知视觉输入,并将输入指令分解为一系列可执行的子任务,然后执行可操作区域感知和轨迹预测。RoboBrain采用多阶段训练策略,使其具备长历史帧记忆和高分辨率图像感知能力,进而提升场景感知和操作规划的能力。

RoboBrain 在任务规划、可操作区域感知和轨迹预测评测任务中均表现出卓越性能。

任务规划方面,RoboBrain在不牺牲通用能力的前提下,在机器人规划评测集OpenEQA、ShareRobot(自建)和RoboVQA上多个维度优于GPT-4V、Claude3等6个当时领先的闭源/开源MLLMs。

△RoboBrain在具身规划评测基准上的性能

可操作区域感知方面,RoboBrain在AGD20K测试集上的平均精度超过了当时最先进的开源模型Qwen2-VL,验证了其在指令理解和物体属性方面的卓越能力。

轨迹预测方面,RoboBrain预测的操作轨迹具有与真实轨迹较高的相似度,展现了其在轨迹预测中的高精度和稳定性。RoboBrain的未来迭代版本会持续提高轨迹预测的能力。

目前,RoboBrain能够解读人类指令和视觉图像,以生成基于实时图像反馈的行动计划和评估,预测每一步的轨迹并感知相应的可操作区域。具体而言,RoboBrain 能够有效利用环境信息和交互对象的状态——无论是从第一人称还是第三人称视角捕捉的图像——生成针对不同类型机器人操作任务的任务规划,并基于人类指令和视觉信息,提供合理的可操作区域,并能在不同场景中表现出良好的泛化能力,生成既可行又合理的轨迹。

具身大脑RoboBrain小脑技能库以及跨机器人数据中枢,是跨本体框架RoboOS的核心要素。具身大脑RoboBrain,负责全局感知与决策,构建动态时空感知、规划指导和反馈纠错机制;小脑技能库,负责低延迟精准执行,实现柔性与精密操作等;跨机器人数据中枢,负责实时共享空间、时间和本体记忆,为决策规划与优化协作操作提供信息支持,从而形成感知-认知-决策-行动的闭环。

一脑多机实现跨本体协作,从单体智能迈向群体智能

跨本体具身大小脑协作框架RoboOS,基于“大脑-小脑”分层架构,通过模块化设计、智能任务管理和跨本体协作,为机器人提供高效、灵活、可扩展的底层支持,实现从单机智能到群体智能的跃迁。

在RoboOS的分层架构下,具身大脑RoboBrain的复杂场景感知与决策能力,可与小脑技能库的高效执行能力深度结合,确保协作框架在长周期、高动态任务中的稳定运行。实现大脑模型(如LLM/VLM)与小脑技能(如抓取、导航)的“即插即用”,目前,可支持松灵双臂、睿尔曼单/双臂、智元人形、宇树人形等不同类型的具身本体。

通过共享记忆系统(空间记忆/时间记忆/本体记忆),实现多个机器人之间的状态同步与智能协作,突破传统“信息孤岛”限制,实现跨本体协作控制。

RoboOS可动态管理多机器人任务队列,支持优先级抢占与资源优化分配,确保复杂场景下实时响应,实现高并发任务调度。

此外,RoboOS可基于执行反馈动态调整策略,结合环境变化,持续优化任务规划,提升鲁棒性,做到实时闭环优化。

在“递送苹果和水果刀”的任务场景中,基于RoboOS及RoboBrain,睿尔曼单臂机器人(转运)、宇树人形G1(挑拣水果)、松灵双臂机器人(挑拣水果刀)分工协作。

整体任务流程是睿尔曼调用“导航技能”移动至餐桌前,宇树G1调用“视觉抓取技能”完成指定物体的挑拣,睿尔曼调用“抓取技能”提起果篮并导航至松灵餐桌前。紧接着,松灵调用“抓取技能”获取水果刀,并放置在果篮中心,睿尔曼依据“空间记忆”导航至办公桌位置,递送果篮后返回待命。

RoboOS接收“拿离杯子最近的水果,并递送一把水果刀”指令后,递送RoboBrain进行任务拆解,并将拆解后的子任务分发给3台跨本体机器人。RoboBrain通过 “空间记忆” 感知环境,确定果篮、苹果位置,并拆解任务为“宇树G1挑拣苹果→睿尔曼传递果篮→松灵机器人抓取水果刀→睿尔曼返回”。

各机器人本体执行子任务过程中,由RoboOS提供端云协作能力,将任务规划为技能粒度,实现云端RoboBrain分发规划,端侧执行技能并实时反馈。RoboBrain识别“离杯子最近的水果位置”、“果篮抓取位置affordance”、“水果刀抓取位置affordance”、“果篮空闲位置Pointing”,经由RoboOS递送指导各机器人本体完成任务

“即插即用”快速轻量化泛化部署,打造统一生态

RoboOS 作为面向多机器人系统的跨本体具身大小脑协作框架,专为解决当前具身智能落地过程中的通用性适配与多机调度难题而设计。针对异构本体难以统一接入、任务调度效率低、缺乏动态错误反馈机制等痛点,基于RoboOS 的“大小脑协同”的架构范式,云端的具身大脑 RoboBrain 负责统一的任务理解、规划决策与上下文感知,本体侧则接入轻量级的小脑执行模块,实现感知-认知-决策-行动的闭环协作。

该机制能够动态感知本体差异、灵活适配操作指令、自动修复异常行为,有效提升系统在复杂任务场景下的鲁棒性与泛化性。RoboOS 原生支持异构机器人本体的灵活接入,以 Profile 模板机制快速完成机器人能力建模与适配。

本体的小脑模块可调用包括开源技能库、自研低阶控制器等多种技能接口,形成一个支持模块复用、即插即用的运行体系,大幅降低开发门槛与接入成本。

在云端,RoboOS 提供完备的模型适配与 API 接入能力,兼容自研的多模态 VLM,作为可插拔的大脑决策引擎,从而在服务机器人、工业自动化、智慧物流、智能制造等领域支撑复杂任务的多机协作需求。

借助 RoboOS 的端云一体化协同能力与动态调度机制,整个系统不仅具备高度的扩展性与可迁移性,更为未来具身智能的规模部署与生态构建奠定了通用操作系统级的基础。

RoboOS基于智源研究院研发的并行训练与推理框架FlagScale,原生支持多机器人系统的端云协同能力,打造具身智能的统一底座。系统在设计上充分考虑“多机器人-多模态-多任务”场景,具备极高的可扩展性与低时延响应能力。

在端侧部署中,机器人注册即可自动与云端部署的RoboBrain大脑建立双向通信链路,通过高效发布-订阅机制实现实时任务调度与状态反馈,指令响应延迟低于10ms,满足复杂动态任务的闭环控制需求。

面向机器人在长期运行中产生的海量感知与行为数据,RoboOS 提供基于内存优化的数据访问引擎,支持TB级别历史数据的内存随机访问能力,为任务复现、异常回溯、跨任务知识迁移等场景提供基础能力。结合 RoboBrain 的任务推理与策略优化模块,历史数据还可用于多机之间的协作知识共享,实现更强的智能演化与自主学习能力。

此外,FlagScale 作为底层支撑框架,支持大模型在多设备间的并行推理与多任务协同调度,可无缝集成视觉语言模型、轨迹生成模块、感知识别等子系统,全面释放具身大模型的系统潜力。

目前,智源研究院依托多模态大模型技术优势资源,正在联合北大、清华、中科院等高校院所以及银河通用、乐聚、加速进化、宇树等产业链上下游企业,积极建设具身智能创新平台,重点开展数据、模型、场景验证等研究。

此次智源研究院发布的跨本体具身大小脑协作框架RoboOS及开源具身大脑RoboBrain,将有机融合和广泛链接不同构型的具身本体与丰富多元的具身模型,加速具身智能跨本体协作与规模化应用。

开放、协作、共享,是具身智能生态繁荣的必经之路,智源研究院愿携手更多产业合作伙伴,共绘具身智能生态蓝图。

开源链接:
具身多模态大脑模型RoboBrain
Github: https://github.com/FlagOpen/RoboBrain
Gitee: https://gitee.com/flagopen/robo-brain
Huggingface:https://huggingface.co/BAAI/RoboBrain

为机器人操作任务设计的高质量异构数据集ShareRobot
GitHub:https://github.com/FlagOpen/ShareRobot
Gitee: https://gitee.com/flagopen/share-robot
Huggingface: https://huggingface.co/datasets/BAAI/ShareRobot

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关推荐

土豪农村建个别墅不新鲜 建个车库都用框架结构?

农村建房子过去都是没车库,也没有那么多豪车,一般直接停在路边或者院子里。现在很多人都会在建房子的时候留一个车库,通过车库可以直接进入客厅,省得雨雪天气折腾。农村土豪都是有钱任性,建房子跟我们普通人不一...

自建框架结构出现裂缝怎么回事?

三层自建房梁底与墙体连接处裂缝是结构问题吗?去前帮我姑画了一份三层自建房的图纸,前天他们全部装修好了。我姑丈突然打电话给我说他发现二层的梁底与墙分离了,有裂缝。也就是图纸中前面8.3米那跨梁与墙体衔接...

钢结构三维图集-框架结构(钢柱对接)

1、实腹式钢柱对接说明1:1.上节钢柱的安装吊点设置在钢柱的上部,利用四个吊点进行吊装;2.吊装前,下节钢柱顶面和本节钢柱底面的渣土和浮锈要清除干净,保证上下节钢柱对接面接触顶紧;3.钢柱吊装到位后...

三层框架结构主体自建房设计案例!布局13*12米占地面积156平米!

绘创意设计乡村好房子设计小编今日头条带来分享一款:三层框架结构主体自建房设计案例!布局13*12米占地面积156平米!本案例设计亮点:这是一款三层新中式框架结构自建房,占地13×12米,户型占地面积...

Casemaker机箱框架结构3D图纸 STEP格式

农村自建房新宠!半框架结构凭啥这么火?内行人揭开3个扎心真相

回老家闲逛,竟发现个有意思的现象:村里盖新房,十家有八家都选了"半框架结构"。隔壁王叔家那栋刚封顶的二层小楼,外墙红砖还露着糙面没勾缝,里头的水泥柱子倒先支棱得笔直,这到底是啥讲究?蹲...

砖混结构与框架结构!究竟有何区别?千万别被坑!

农村自建房选结构,砖混省钱但出事真能保命吗?7月建材价格波动期,多地建房户因安全焦虑陷入选择困境——框架结构虽贵30%,却是地震区保命的关键。框架柱和梁组成的承重体系,受力分散得像一张网。砖混靠墙硬扛...

砖混结构与框架结构,究竟有何区别?千万别被坑!

农村建房选砖混结构还是框架结构?这个问题算是近期留言板里问得最多的问题了。今天咱们说说二者的区别,帮您选个合适的。01成本区别假如盖一栋砖混结构的房子需要30万,那么换成框架结构,一般要多掏30%的费...

6个小众却逆天的App神器,个个都是黑科技的代表

你的手机上有哪些好用的软件?今天我就给大家分享6个小众却逆天的App神器,个个都是黑科技的代表!01*Via浏览器推荐理由:体积极小的浏览器,没有任何广告。使用感受:它的体量真的很小,只有702KB,...

合肥App开发做一个app需要多少钱?制作周期有多久?

在移动互联网时代,开发一款APP已成为企业数字化转型与个人创业的重要途径。然而,APP的开发成本与制作周期受功能复杂度、技术架构、团队类型等多重因素影响,差异极大。好牛软件将从这两个维度展开分析,帮助...

详解应对App臃肿化的五大法则

编者注:本文转自腾讯ISUX。先来看一张图:图上看到,所有平台上用户花费时间都在减少,除了移动端。观察身边也是如此,回家不开电脑的小伙伴越来越多。手机平板加电视,下班场景全搞定。连那些以前电脑苦手的...

实战!如何从零搭建10万级 QPS 大流量、高并发优惠券系统

需求背景春节活动中,多个业务方都有发放优惠券的需求,且对发券的QPS量级有明确的需求。所有的优惠券发放、核销、查询都需要一个新系统来承载。因此,我们需要设计、开发一个能够支持十万级QPS的券系...

8种移动APP导航设计模式大对比

当我们确定了移动APP的设计需求和APP产品设计流程之后,开始着手设计APP界面UI或是APP原型图啦。这个时候我们都要面临的第一个问题就是如何将信息以最优的方式组合起来?也许我们对比和了解了其他一些...

数字资产支付 App 的技术框架

开发一款功能强大、安全可靠的数字资产支付App需要一个整合了区块链技术、后端服务、前端应用以及第三方集成的全栈技术框架。这个框架的核心在于保障数字资产的安全流通,并将其高效地桥接到传统的法币支付场...

从MyBatis到App架构:设计模式全景应用指南

从MyBatis到App架构:设计模式全景应用指南引言在企业级应用和服务端开发领域,MyBatis凭借其灵活、简洁、强大的ORM映射能力被广泛应用。而它之所以能拥有如此优秀的可扩展性和工程可维护性,正...

取消回复欢迎 发表评论: