百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

斯坦福机器手训练大进展!400美元的夹子厉害在哪?

ccwgpt 2025-06-12 11:18 16 浏览 0 评论

要闻背景简述

2月15日,斯坦福等高校的联合团队发布了一个AI机器人数据收集和策略学习框架,名叫通用操作接口(UMI)。

UMI采用手持式夹具收集数据。外形酷似螃蟹钳子,搭载了GoPro运动相机和传感器,可实现便携式、低成本的数据收集。

简单来说,人类手持UMI夹具演示刷盘子、叠衣服等动作,将数据传输给机器手之后,机器手就能够快速学会相应的动作。据介绍,UMI夹具成本仅为400美元。

以下是王煜全要闻评论:


最近有一条来自斯坦福大学的新闻,对我来说这是一个非常重要的新闻,因为它可能给产业界带来巨大的改变。

这个新闻是什么呢?就是斯坦福的学生们发明了两个像钳子一样的工具。手放在钳子后面,拿笨拙的钳子去操作工具,比如洗盘子或者倒杯茶。

但是,这可不是简单的钳子,里面有很多传感器,也有分析能力。他们会把收集到的数据传输到机器手里。也就是说,这其实是在培训机器手。

就等于人手把手地教机器手如何把盘子拿起来,如何把水倒到杯子里。这种时候机器手的灵活度就迅速提升了。

坦白讲,我觉得这是一个非常聪明的设计。之前在哪看到类似设计呢?就是去年马斯克在展示特斯拉的Optimus擎天柱机器人的时候。

虽然大多数时候他们都在展示机器人的行走能力,但是有一个镜头让我印象特别深刻,就是它在展示一个人戴上了一堆的装置以后做各种动作。另一边擎天柱的机器手就可以做出一模一样的动作来。

但是注意,当时这个人手上戴的东西很复杂,我们都知道里面肯定有大量的传感器。

现在斯坦福看似推出了简化版本,因为只是一两个简单工具就行了,但实际上是一个优化版本。也就是说,训练机器手的工具都标准化了,这可是个了不起的进步。

为什么这么说呢?因为我认为未来机器手的训练会进入一个差异化训练的阶段,跟训练人的技能很像。

我们都知道,人是万能的,人的四肢尤其是上肢可以做各种各样的事情。但是你发现没有?虽然人是万能的,但是基本上你成为一个领域的专家,就很难成为另一个领域专家了。

比如,乔丹打篮球都成“神”了,但是后来有一段时间他去打棒球,死活就成不了棒球界最牛的明星。

为什么呢?就是每个领域都是术业有专攻的。虽然我们人是通用的,但是我要想掌握某个技能,真的还是需要专攻。

这不光是机器人未来的特点,其实也是人工智能的特点。虽然后面都是通用的大模型,但是你要用专门的数据做训练,然后才能解决专门的问题。它是会有专业化分工的。

也就是说,人们认为通用人工智能在每个领域都是专家,但这件事我的判断是二三十年之内还成不了。

当然如果你想了解更多,可以参加我们科技特训营,我们有详细的解释,但眼前就告诉你一个结论。

但是,生成式人工智能已经在越来越多的领域里成为单项专家了,也就是说语音语义互动的专家越来越多。

现在有了斯坦福这样的研究成果,我们相信越来越多的机器手会成为操作方面的专家。比如,有些机器手就可以成为炒菜的专家,有的机器手就可以成为按摩的专家。

但是按摩机器手和炒菜机器手外形是一模一样的,只是他们掌握的技能不同。你发现没有,是不是机器手越来越像人了?

我们强调人形机器人不重要,虽然它的腿越来越灵活,但是腿的用处不大。机器人最主要就是手眼协调,一个是手,一个是眼,一个是后面的计算能力。那这三者最重要的核心在哪?就是手,因为另两者基本都具备了。

那“手”突破了以后,大量所谓的服务,尤其是物理的服务就可以用机器来完成,而不需要人来完成了。

我前一阵和朋友一起在餐厅吃饭,我们就说,你看现在的传菜机器人最大的尴尬在哪呢?就是它可以把盘子送到餐桌面前,但是不能把盘子放到餐桌上。

理论上讲,传菜机器人可以配两个机器臂自己来端,但是可能稳定性有欠缺。其实最好的办法是每个餐桌侧面都放着两只机器臂,等到传菜机器人走近的时候,餐桌的机器臂伸出来,把盘子放到餐桌上相应的位置上,就解决了。

所以我们强调的是什么呢?就是未来人工智能给我们带来的“服务规模化”。

生成式人工智能在语言互动上的服务是能解决了,不管是律师还是心理咨询都是语言互动就能解决的服务。下一步有机器人,就意味着我们需要的物理服务也能够得到广泛地解决。

我们强调,人工智能有了大模型,尤其是今年的一个重大的突破就是大视觉模型,这就意味着,我们在三维空间里的掌控程度越来越好,用大视觉模型去训练机器臂,就会让机器臂事半功倍。

但是注意要有更好的训练方法。训练方法靠什么呢?一方面就看视频,甚至三维数据。另一方面就是有人手把手地教,手把手地带。

尤其需要专业级的人才,一定是篮球教练去教篮球,足球教练去教足球,千万别混着,但是都需要有教学工具。

现在斯坦福给我们一个很好的示范,可以使用通用工具训练机器手。当有通用工具以后,每个不同领域的应用开发者,就可以利用通用工具去训练机器人在各个领域的专业能力了。

这个时候,似乎开发机器手的专业能力就成了掘金。因为如果你开发出按摩能力,那全世界的按摩都可以用机器手代替了,你就成了巨大的公司。

但是这种时候“卖水”也是有机会的。也就是说,我非常相信斯坦福这帮学生们如果想创业,会是一个非常好的创业项目。就是给各行各业提供专业机器人的训练工具。

比如,你想不想训练你的机器人学会按摩?你就需要有训练工具,斯坦福就可以帮你定制。

所以产业链就会慢慢打通了。当然未来可能不止这一种形态,因为它的两个很笨的大触角没法做按摩,未来可能有N多个形态。

但是他的思路是对的,就是把训练工具都标准化出来。就像当年英伟达把GPU都标准化出来。当工具标准化了,训练方式也相对标准化,训练的内容就丰富化了。这就意味着,人工智能和机器人的结合,会造成机器人的应用繁荣。

所以我们还是坚持我们以前的判断,甚至因为有了斯坦福这样的结果,我们的判断就更坚定了,未来两年真正会产生爆发的是机器手的应用。

甚至说它的单项操作能力会超过这一项的专家,这也是斯坦福给我们带来的启示。

以上是今天的内容,更多详细的产业分析和底层逻辑,我会在科技特训营里分享。欢迎关注全球风口微信号,报名加入!

王煜全要闻评论,我们明天见!

相关推荐

自己动手写Android数据库框架_android开发数据库搭建

http://blog.csdn.net/feiduclear_up/article/details/50557590推荐理由关于Android数据库操作,由于每次都要自己写数据库操作,每次还得去...

谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic

智东西编译|金碧辉编辑|程茜智东西5月28日消息,据科技媒体TheDecoder5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude3.7...

工信部:着力推动大模型算法、框架等基础性原创性的技术突破

工信部新闻发言人今日在发布会上表示,下一步,我们将坚持突出重点领域,大力推动制造业数字化转型,推动人工智能创新应用。主要从以下四个方面着力。一是夯实人工智能技术底座。通过科技创新重大项目,着力推动大模...

乒乓反复纠结“框架不稳定”的三个小误区

很多球友由于对框架的认知不清晰,往往会把“框架不稳定”当成一种心理负担,从而影响学球进度,其典型状态就是训练中有模有样,一旦进入实战,就像被捆住了手脚。通过训练和学习,结合“基本功打卡群”球友们交流发...

前AMD、英特尔显卡架构师Raja再战GPU,号称要全面重构堆栈

IT之家8月5日消息,知名GPU架构师拉贾科杜里(RajaKoduri)此前曾先后在AMD和英特尔的显卡部门担任要职。而在今日,由Raja创立的GPU软件与IP初创企...

三种必须掌握的嵌入式开发程序架构

前言在嵌入式软件开发,包括单片机开发中,软件架构对于开发人员是一个必须认真考虑的问题。软件架构对于系统整体的稳定性和可靠性是非常重要的,一个合适的软件架构不仅结构清晰,并且便于开发。我相...

怪不得别人3秒就知道软考案例怎么做能50+

软考高级统一合格标准必须三科都达到45分,案例分析也一直是考生头疼的一门,但是掌握到得分点,案例能不能50+还不是你们说了算吗?今天就结合架构案例考点,分享实用的备考攻略~一、吃透考点,搭建知识框架从...

UML统一建模常用图有哪些,各自的作用是什么?一篇文章彻底讲透

10万+爆款解析:9大UML图实战案例,小白也能秒懂!为什么需要UML?UML(统一建模语言)是软件开发的“蓝图”,用图形化语言描述系统结构、行为和交互,让复杂需求一目了然。它能:降低沟通成本避...

勒索软件转向云原生架构,直指备份基础设施

勒索软件组织和其他网络犯罪分子正越来越多地将目标对准基于云的备份系统,对久已确立的灾难恢复方法构成了挑战。谷歌安全研究人员在一份关于云安全威胁演变的报告中警告称,随着攻击者不断改进数据窃取、身份泄露和...

ConceptDraw DIAGRAM:释放创意,绘就高效办公新未来

在当今数字化时代,可视化工具已成为提升工作效率和激发创意的关键。ConceptDrawDIAGRAM,作为一款世界顶级的商业绘图软件,凭借其强大的功能和用户友好的界面,正逐渐成为众多专业人士的首选绘...

APP 制作界面设计教程:一步到位_app界面设计模板一套

想让APP界面设计高效落地,无需繁琐流程,掌握“框架搭建—细节填充—体验优化”三步法,即可一步到位完成专业级设计。黄金框架搭建是基础。采用“三三制布局”:将屏幕横向三等分,纵向保留三...

MCP 的工作原理:关键组件_mcp部件

以下是MCP架构的关键组件:MCP主机:像ClaudeDesktop、GitHubCopilot或旅行助手这样的AI智能体,它们希望通过MCP协议访问工具、资源等。MCP主机会...

软件架构_软件架构师工资一般多少

软件架构师自身需要是程序员,并且必须一直坚持做一线程序员。软件架构应该是能力最强的一群程序员,他们通常会在自身承接编程任务的同时,逐渐引导整个团队向一个能够最大化生产力的系统设计方向前进。软件系统的架...

不知不觉将手机字体调大!老花眼是因为“老了吗”?

现在不管是联系、交友,还是购物,都离不开手机。中老年人使用手机的时间也在逐渐加长,刷抖音、看短视频、发朋友圈……看手机的同时,人们也不得不面对“视力危机”——老花眼,习惯眯眼看、凑近看、瞪眼看,不少人...

8000通用汉字学习系列讲座(第046讲)

[表声母字]加(续)[从声汉字]伽茄泇迦枷痂袈笳嘉驾架咖贺瘸(计14字)嘉[正音]标准音读jiā。[辨形]上下结构,十四画。会意形声字,从壴从加,加也表声。注:从壴,字义与鼓乐有关;从加,字义与...

取消回复欢迎 发表评论: