股票配资平台网_专业股票配资_在线股票配资平台

发布日期:2025-04-10 21:49    点击次数:60

好配资炒股开户线上 机器人大神圆桌(上):软硬件的「相爱相杀」,以及数据的临界探索_技术_Aaron_CEODeepak

好饭不怕晚好配资炒股开户线上,原来2025 GTC还有精彩内容有待发掘!

RoboX将一场主题为「人形机器人的崛起」的圆桌内容进行了翻译和整理,供大家参考。此次的圆桌讨论嘉宾包括:

Aaron Saunders——波士顿动力CTO Bernt Bornich——1X创始人兼CEO Deepak Pathak——Skild AI的CEO兼联合创始人 Jim Fan——英伟达首席研究科学家/高级研究经理 Pras Velagapudi——Agility机器人 CTO

为何机器人开始突飞猛进?

【Jim Fan】- 英伟达:

机器人作为与AI一样古老的领域,之所以在过去发展得如此艰难,是因为符合莫拉维克悖论。

该悖论表明,一些对人类来说简单的事情,对机器而言却非常困难,反之亦然。那么,现在究竟发生了哪些变化呢?

展开剩余92%

一是模型方面。由于大型基础模型如LLM以及ChatGPT的出现,我们现在拥有了能够进行推理的模型,以及能理解计算机视觉、开放词汇表及三维视觉世界的多模态模型。

在讨论通用机器人之前,你需要先有一个优秀的视觉系统。随着其他模型变得越来越好,我们可以更系统地应对机器人技术的问题。

二是数据方面。与LLM不同,就像Ilya Sutskever说的:“互联网是AI的化石燃料”。

然而,机器人技术还没有化石燃料,必须依靠生成数据,以及大规模收集数据。而仿真技术,尤其是GPU加速模拟技术的到来,真正让这些问题变得更加可解——现在你可以在大约3小时的计算时间内,生成相当于10年的训练数据。

三是硬件方面。一些杰出的创始人带来的先进机器人硬件,不仅更优秀,价格也更亲民。比如今年,我们看到硬件的价格大概在4万美元左右,这差不多是一辆车的价格。而在2001年,NASA建造的Robonaut,作为最早的主要人形机器人之一,造价高达150万美元。

这些条件,让我们超越了数据悖论。

(Jim Fan)

【Aaron Saunders】- 波士顿动力:

我认为仿真到现实的差距缩小,是一个重大进展——我们现在能够以高于实时的速度,表示真实世界的物理特性,这能够加速探索仿真方案,以开发新的AI技术。

另外,许多组件的商品化,消费电子行业的发展带来了电池、摄像头等技术的进步,这些技术用于感知、观察世界和计算。

回顾过去10到15年,大多数机器人都装满了印刷电路板和电线,电池容量很小。现在这一切都改变了:我们可以放入大量的计算资源,安装微小而高效的传感器。

组件的商品化不仅仅是为了降低成本,更是将全球供应链中的「部件拼图」组合在一起。

【Deepak Pathak】- Skild AI:

AI的本质就是为机器人而生的。如果你回顾图灵最初的文献,当他谈论AI时,实际就是指向机器人的。

他提到,可以将机器人放在「教室」里,随着学习时间的推移,它会成长为「成年人」,这是一个令人着迷的想法。

到目前为止,机器人技术主要属于控制论的领域。

在二战期间,控制论因其在飞机、导弹等方面的应用而大放异彩。后来由于图灵的影响,机器人技术开始兴起,人们开始思考工具有哪些。

但这与最初的精神并不一致,也不是孩子式的学习——在孩子学习走路时,你不会先教他们微积分,而是让他们通过经验来学习如何移动关节并学会行走。

因此,真正改变的是我们对待机器人的方式——从编程经验转向通过经验学习

(Deepak Pathak)

【Bernt Bornich】- 1X:

互联网就像一个接近30年的「巨大人类实验」,全世界的人们都在贡献数据,创建了巨大的数据源,以便训练AI。

现在我们要做的,是再次请求所有人,在接下来的30年里继续贡献,不过这次是让你们自己变成机器人。

当然这不是真的,但目前已有的数据是推动AI前进的原因。而现在的问题是,我们如何利用现有的数据来引导机器人进步?因为只有达到一定水平,它们才能开始在现实世界中学习。

比如说,当你要求机器人从冰箱里拿一瓶可乐,如果它能做到一半的成功率,那就有了可行的实现路径。因为在此基础上,只要重复运行足够多次,最终它就能非常擅长这一任务。

各种多模态LLM虽然还不能完全解决机器人问题,但这种方法可以使系统变得足够有用,从而创建一个高效的数据飞轮,而不需要你对机器人做的每一件事都进行远程操作。这也许也能通往通用人工智能,我们拭目以待。

(Bernt Bornich)

【Pras Velagapudi】- Agility Robotics:

机器人的两大挑战是:第一,硬件很难;第二,世界是非结构化的。

回顾AI和机器人技术的发展历程,你会发现机器人技术的一大块工作都是在解决硬件难题,包括微型化传感器如MEMS、执行器和驱动技术以及能量存储技术等都需要被攻克。

从AI的角度来看,我们基本上是从解决结构化问题,逐步过渡到解决非结构化的难题。从处理Query到API,再到简化世界模型,直至现在的非结构化世界模型,每一个环节都在提升AI平台,找到新的数据摄取方式。

目前,这些积累最终达到一个临界点,我们可以着手解决与非结构化方式与世界互动的完整问题了。

(Pras Velagapudi)

如何看待基础模型的爆发式增长

【Jim Fan】- 英伟达:

如何构建通用大脑呢?我认为主要有两个原则:

第一个原则:模型本身要尽可能简单,尽可能端到端。

以自然语言处理(NLP)领域举例,在ChatGPT出现之前,NLP领域有点混乱——文本摘要、机器翻译、代码生成等都要用完全不同的数据Pipeline、训练协议和模型架构,有时还不仅仅是单一模型。

然后,ChatGPT彻底改变了这一切,因为它很简单。

它将任何文本映射到任何其他文本,可以统一所有的数据、所有的问题到一个模型中,这是机器人技术应该借鉴的地方。

第二个原则:数据Pipeline实际上会非常复杂。

数据是个大问题。对于GR00T而言,数据策略可以组织成一个金字塔。

顶端是真实世界中通过远程操作收集的真实机器人数据,这是最高质量的数据。但这也相当有限,可扩展性不高。

金字塔中部是仿真的部分,类似ISSAC这样的物理引擎可以生成大量数据。而在金字塔的底部,仍然是来自互联网的所有多模态数据,但利用方式略有不同。

我们用它们来训练视觉语言模型,这些模型可以成为视觉语言动作模型的基础。因此,金字塔的最后一层实际上是超越传统图形引擎的神经模拟——你可以提示一个视频生成模型,并要求它幻想出一个新的人形机器人轨迹。

视频模型学习物理规律的能力非常强,以至于它能够在像素层面给你提供物理上精确的轨迹。

【Aaron Saunders】- 波士顿动力:

将产品交付给客户时,我们需要确保系统和功能的安全性。

目前我们正处于构建数据集非常早期的阶段,在追求终极的强大状态的同时,不能把工具箱都扔掉。

我们必须通过应用工具来保障稳定——机器人技术有一大套积累了70年的工具箱,其中一些工具仍适用于解决现实世界的问题,尤其面对有潜在风险的机器人和功能时,一旦失去信任,就再也无法挽回了。

(Aaron Saunders)

【Bernt Bornich】- 1X

通过早期和近期LLM的经验教训,会发现「多样性」被低估了。

在LLM发展的早期,有很多公司尝试训练模型来创作诗歌。他们会用世界上最好的诗篇来训练模型,但这实际上并不奏效。因为你需要在非常多样化的数据上进行训练,而不仅仅是与写诗相关的数据。

这一点对于机器人技术来说,显然也是成立的。在处理小规模数据集时,限制我们更多是数据的多样性,而非数据量。

因此,关键在于如何尽可能多地涵盖不同环境中的各种任务。最好还能包含尽可能多的噪音和动态因素,这样你就能理解实际任务的要求。

我最喜欢的例子是打开洗衣机:我们会看到洗衣机的圆形入口,知道要把衣服放进去,然后尝试打开它;如果打不开,可能会寻找卡扣,一切操作都很好理解。

而今天的机器人完全不具备这种能力,它们更像是在学习重复某种动作。这就是为什么要让机器人广泛应用于实际环境中,并获取多样化数据。我们认为这一切必须发生在人们中间,发生在家庭里——要在确保机器的能量不至于造成危险的前提下,考虑如何将这种方法与经典工具箱结合起来。

【Deepak Pathak】- Skild AI

我们要部署不同种类、形态的机器人,它们的共享大脑是什么?这里有两个关键点:

第一点、当一个人类控制机器人时,他们不需要知道电机的具体细节。这可以证明,一个大脑可以使用来自任何地方的数据,来控制机器人。

第二点、现实中并没有现成的数据,但人类有大量数据。我们就像是生物机器人,有运动神经元和感觉神经元。感觉神经元将信号从你的传感器传送到大脑,而运动神经元则将信号从大脑传送到肌肉。

我们存在一个可以控制所有硬件的大脑,能够生成机器人技术中非常关键的数据。关于人类肢体如何运作的知识,这些都可以用来补充仿真。

【Bernt Bornich】- 1X

这些数据的确极其有用,但它与其他数据并不是互相排斥的。

【Pras Velagapudi】- Agility Robotics

作为一名经常远程操作机器人的人员,我可以肯定地说,人脑非常擅长远程操作各种平台,但并非所有情况下都能达到相同的水平。

硬件确实可以造成差异,我曾远程操控过1X机器人,那是一次很棒的体验;另外我也操控过一些工业机器人,可体验并不好。

可见,硬件起着重要作用,并且确实定义了某些性能特征。

基于这些差异,我们需要投入一定的精力来构建合适的硬件,使其易于控制,拥有合适的传感能力,以及合适的惯性特性,使其在现实世界中能有效工作。

【Bernt Bornich】- 1X

我们现在讨论的主要是控制架构「自上而下」的方式,但我认为「自下而上」的学习方式也很有趣,比如学习灵巧性。

我们不知道如何建立一个快且好的远程操作系统,来提供触觉反馈等,但是机器人本身却能很好地学习这些技能。

你可以给它一堆物体让它把玩,然后在远程操作界面上添加一个抽象层,指导机器完成任务,允许系统学习灵巧性。

【Aaron Saunders】- 波士顿动力

当我们试图将大脑与硬件分离时,如要视任务而定:当任务集只涉及质量无关紧要的对象时,那么可以将大脑与身体的很多部分分离。

但现实情况是,如今机器人的目标超出了这一范畴——如果希望机器人抬起大型、重型、复杂的物体,或者想要触摸锋利的金属部件、处理高温物体,甚至用机器人完全代替人类操作高危工作,那么大脑和硬件必须协同进化。

要知道,执行器的质量,和内部摩擦程度,对于在仿真中准确运行非常重要。

我认为还需要更多时间,才能完全理解像GR00T 这样的模型如何在A 型机器人和B 型机器人上部署。因为我还不认为我们有足够的数据点来让一个模型在所有不同类型的机器人上部署,并且还不会造成行为差异。

【Deepak Pathak】- Skild AI

也可能反过来,一种硬件可以搭载许多大脑。(是的,当然。)英伟达就是一个例子,一种硬件上有很多公司致力于构建大脑。

【Jim Fan】- 英伟达

我想谈谈一个非常有趣、也极具挑战性的话题——跨实体化。对于模型而言,跨实体化意味着什么?

我们不妨先思考一下自己,实际上人类非常擅长跨实体化。

当你开始玩一个游戏,其实就是在进行跨实体化。比如你在游戏中驾驶一辆车或扮演某个奇怪的角色,有时甚至是非人类的角色,你会逐渐掌握如何在游戏中控制那个身体。所以人类的大脑非常擅长跨实体化。

我同意Aaron的观点,目前讨论完全零样本跨实体化还为时过早。这意味着你带一个机器人过来,模型就能神奇地工作。

我们现在还无法做到这一点,但终将到达那里。实现这一目标的方法,就是拥有大量不同的机器人硬件,甚至更多的仿真机器人硬件。

以前,我们的研究小组做了一项非常有趣的工作——MetaMorph。我们在仿真中程序化生成了数千个简单的机器人,它们有着不同的关节连接方式。有些看起来像蛇,有些像蜘蛛,非常奇特。然后我们对机器人的身体进行标记化,将其转化为一系列整数。这样就可以应用Transformer和注意力机制,通过一千个实体生成第一千零一个实体。

但这只是一个非常初步的实验,不过我相信,如果我们能够拥有一种通用描述语言,并且有各种不同类型的现实和仿真机器人,就可以对其进行标记化,从中获取大量数据,从而形成一个实体宇宙和向量空间,也许新的机器人会在这个分布范围内诞生。

不过,即使在同一代机器人内部,也存在跨实体化的问题,更不用说跨代际、跨公司了。所以这正在成为一个真正的难题,我们才刚刚触及表面。

【Aaron Saunders】- 波士顿动力

老实说,目前数据的多样性还不足。如果你看看类人机器人领域,它们基本上都在处理相似的东西,也就是对人类身体的复制。而在波士顿动力,我们决定只为抓手设计三根手指。

这与完全仿人手的趋势背道而驰,因为我们发现人类非常擅于将自己映射到三根手指上——你可以让一名远程操作员操作三指抓手,在经过几小时的训练后,他们几乎能完成用五根手指所能做的所有事情。因此,我认为在这方面还有很大的探索空间。

由于大家都在努力打基础,现在还不够大胆。一旦这些模型开始展示出泛化能力,人们就会开始突破,这可能是好事也可能是坏事——我们可能会得到一些看起来让人感到害怕的机器人。

但我认为,光是操作臂就存在如此丰富的机会,未来几年的发展着实令人兴奋。

【Jim Fan】- 英伟达

是的,Aaron,给我一千个不同的Atlas,我会为你解决这个问题。(好的,成交。)

(待续)

下半场的议题包括「当前硬件的最大挑战」、「对2-5年内的发展预判」等好配资炒股开户线上,各位嘉宾的讨论也会更加激烈。敬请关注RoboX,留意下期内容。

发布于:北京市




Powered by 股票配资平台网_专业股票配资_在线股票配资平台 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2009-2029 联华证券 版权所有