文:Vicky 编辑:陈茜 具身智能是2025年最大的“泡沫”吗?今年早些时候,玉树突然大动作,推出了售价5900美元的R1人形机器人。要知道,就在一年前,业界普遍认为人形机器人的最终成本仍将在2万至3万美元之间。玉树此举相当于直接击碎了整个行业的价格预期。不久之后,Figure AI 的估值从 2024 年的 26 亿美元增长了 15 倍,达到 390 亿美元。投资者名单中包括一些科技领域的巨头,包括微软、OpenAI、Nvidia、贝索斯、英特尔和三星。资本市场正在疯狂押注,仿佛嵌入式智能的未来指日可待。但与此同时,虽然特斯拉吹嘘自己生产了 5,000 辆 Optimus 装置,但实际上它只组装了大约 1,000 辆,然后就按下了暂停按钮并面临重新设计。马斯克大胆宣称特斯拉80%的价值来自擎天柱面对现实,他们有点尴尬。这里冷,这里热,确实有点混乱。具身智力发展到什么程度了?在这篇文章中,我们将从算法、硬件、数据、资金、主要参与者的路径开始一一解释。 01 什么是具身智能?为什么2025年会成为流行病?在谈论行业现状之前,我们首先要明确什么是嵌入式智能。如果说ChatGPT是一个可以“说话”的AI,那么具身智能就是一个可以“做”的AI。其核心是视觉-语言-行动(VLA)模型。将三件事集成到神经网络中。视野:查看当前场景。语言:理解任务目标和常识。操作:生成特定的控制语句。简单地说,就是三种技能:观察环境的能力、听指令的能力、以及采取行动的能力。这与传统机器人有何不同TS?例如,传统的工业机器人。就像一个只会背台词的演员一样。你给它编程,它就会一步步运行。但化身的智能机器人更像是一个可以即兴发挥的演员。了解环境的变化并能够独立做出决定。例如,如果你要求它折叠毛巾,传统机器人每次都必须将其放置在完全相同的位置。但是一个智能的实体机器人可以识别出,“哦,这次毛巾又皱又扭曲。然后,如果我调整运动轨迹,我仍然可以折叠它。” Dyna Robotics是硅谷最热门的嵌入式智能公司。它成立整整一年。目前,A轮融资已达1.2亿美元,估值达6亿美元。投资者包括英伟达。 “叠毛巾”的示范动作让戴娜走红。 Dyna Robotics VLA联合创始人York Yang简单的说就是在大模型领域我们用VLM作为他是“骨干”(核心),但是当我们最终生成结果时,我们将这个结果转化为可以在机器人领域使用的东西。行动。对一个动作的直观理解是,比如我想让这条手臂移动到某个坐标点。其实大家对VLA最大的诟病就是为什么我们需要L(Language)。这是因为迄今为止许多传统的机器人算法完全依赖于视觉。但如果你仔细想想,你的大脑实际上会产生类似语言的东西来告诉你在长期任务中第一步要做什么,第二步要做什么。 L 的优点是它可以训练你用一种大语言做很多逻辑上的事情,以完成一些非常复杂的任务。例如,如果你想喝水,你就会知道你需要找到一个杯子或瓶子。这是可以直接通过大型语言模型提供的东西。使用VLA的主要目标实际上是为了更好地结合语言和视觉。否则,愿景如果只有一种选择,只能执行短期任务,无法执行需要推理的长期任务。这也是我们重点介绍语言部分的主要原因。这是一个质的飞跃。机器人不再是执行固定程序的机械臂,而是可以通过视觉、语言和行为的集合来理解、计划和适应的智能代理。具身智能并不是一个新概念。因为2025年突然爆发?有这三个要素。首先,大型模型本身已接近成熟。无论是 OpenAI 还是其他公司最近发布的更大模型,功能的改进都反映了渐进式演进,而不是从最初的 GPT-3.5 到 GPT-4 的巨大飞跃。在此背景下,大规模模型的整体功能稳定,足以作为智能嵌入式系统可靠的基础功能层。 ChatGPT 展示了大规模语言模型能够理解复杂的指令并制定推理计划。这组功能可以转移到机器人上。如果你说“帮我做早餐”,机器人可以计划一个多步骤顺序,例如“先做鸡蛋,然后打鸡蛋,然后煎鸡蛋”。其次,算力价格再次减半。随着芯片厂商不断推出性能更强大的新一代芯片,同等算力的单位成本呈现出长期下降的趋势。通常,每隔几年,获得相同计算能力所需的成本就会下降到以前价格的一半。即使到了 2023 年,NVIDIA H100 GPU 的租金仍然会很昂贵。当前,云服务算力的价格竞争愈演愈烈,训练大型模型的成本大幅下降。以前只有大公司才能玩的游戏现在也可以由新公司玩。第三,硬件供应链成熟。 r的整体成熟度obot硬件成分比较高。尤其是近一年来仿人机器人的兴起,电机、变速箱等重要部件投入了大量资金和工程资源进行核心构件的研发。随着相关技术的不断成熟,成本也随之降低。玉树直接将价格提高到5900美元。目前业内普遍认为在2万美元至3万美元范围内即可实现规模化生产。随着成本曲线的急剧下降,商业化不再是一个白日梦。这三种力量的重叠推动了具体智能从实验室走向商业化的前夜。不过,这并不是盲目乐观,而是基于技术成熟度的理性决定。那么,目前具身智能的能力限制在哪里,它能做什么呢? 02 机器人现在能做什么?第2.1章你可以做什么dy do 让我们先谈谈你能做什么。应用程序已经存在于工业和商业环境中。折叠毛巾和衣服看似简单,但Dyna的机器人可以在24小时内折叠700条毛巾,成功率高达99.4%。这已经为酒店和洗衣店带来了真正的生产力。基础模型包括切菜水果、准备饭菜、清洗早餐、分拣物流等各个场景的数据。在宝马集团的 BMW 工厂中,Figure 机器人执行简单的装配和物料搬运。 Agility Robotics 的 Digit 在存储和物流场景中移动箱子。 1X还将向瑞典巨头EQT交付多达1万台1X Neo人形机器人,主要用于制造、仓储、物流等工业场景。更不用说,亚马逊雇佣了 100 万台专业机器人,几乎超过了其 156 万名人类员工。这些不是演示,而是正在运行的商业项目。这是关于“诉讼程序2.2:目前正在克服哪些挑战?领先企业正在解决哪些挑战?例如:中等难度的任务,比如准备早餐。这是一项“长期任务”,需要多步骤规划:取料、切菜、备菜、开火、炒菜。所有步骤都必须精准、力度可控,不能用手压碎鸡蛋或切菜。Dyna的最新演示图中还展示了两个机器人一起工作的情况,一个负责运送工具,另一个负责行动。虽然它对于家庭使用来说很方便,但它的稳定性仍在完善中。因为每个家庭的环境都不同,改变灯光、摆放物品、移动家庭成员都是“非结构化环境”中的挑战。比较特殊aking,工厂是一个“结构化环境”,具有固定照明、固定物品位置和标准化流程。但当涉及到家庭时,情况就完全不同了。而家务活也有零容错的关键要求。机器人在工厂破坏零件,损失是可控的。打碎家里的碗或伤害别人都是意外事故。王浩,CTO,自变量机器人 例如,机器人在执行任务时,桌布上可能有小皱纹,杯子可能不稳定,可能有透明物体反射光线,对摄像头产生干扰。事实上,人类可以根据直觉和丰富的经验立即适应这些微小的身体变化。然而,它很难适应大规模的人工智能模型,因为它严重依赖数据驱动。无法保证您能够经历这些新挑战。因此,机器人进入家庭的技术门槛远高于机器人进入工厂的技术门槛。但这并不意味着它遥不可及。 York Yang Dyna Robotics 联合创始人 我们相信,毫无疑问,目前正在开发的一些市场将处于早期阶段,例如商业服务和一些商业用途的人造零件。这涉及到与人类一起完成一些任务,比如一些场景。就这样。然而,我们相信家庭使用并不遥远,完整且高度通用的 AGI 也不是必需的。进入家庭场景可能只需要完成一些任务。首先让机器人在家完成工作,然后通过模型迭代逐渐生成更多特征。当然,如果硬件成本在一般家庭能够承受的范围内,可能会优先考虑。比如我们首先会向家庭销售衣服折叠功能,然后逐步拓展其他功能。所以这个时间线应该不会太远吧大约1-2年。这是“合理的进展”。不要像科幻电影中那样等待机器人成为多用途管家,然后才进入市场,而是从用户真正需要的明确功能开始,并随着时间的推移进行迭代。 032025年的技术进步将面临很多挑战,但2025年肯定有一些值得注意的技术进步。业内人士坦言,并非所有进步都是革命性的,但都是真正的进步。第3.1章断点1:双系统架构现在很常见。许多公司开始采用所谓的“系统1+系统2”架构。系统1是“快速思维”,负责反射动作,例如抓取和移动物体。参数数量少,响应速度快。参数可能只有8000万个。系统2是“慢思考者”,负责复杂的规划,例如具有大量参数(可能70亿)的多步骤任务,例如“makebreak”这种分工与人脑的分工非常相似。伸手拿盘子是本能反应,但膳食规划需要深思熟虑。Figure AI的Helix模型就是这种架构的代表作。与OpenAI分离后,我们在两周内迅速推出了这个本地模型。创新性地使用单个神经网络来控制上半身的35个自由度,甚至可以同时控制两个机器人的协调。这个架构的成功是基于基础和大规模的机器人模型。我们证明相似的语言模型的缩放法则并不总是更好;第 3.2 章突破点 2:合成数据革命 为什么机器人数据如此昂贵?原因也很简单,因此收集真实的操作数据既耗时又昂贵。或生成合成数据。他们表明,11 小时内生成了 780,000 个操作轨迹。这相当于 6,500 小时或连续九个月的人类经验数据。合成数据与真实数据存在差距,但至少解决了“数据缺失”的问题。愤怒。然而,这里存在重要的技术权衡。联合创始人,York Yang Dyna Robotics 我们与许多正在大规模构建语言模型的人进行了交谈,发现面向语言的数据可以用来训练更好的模型,即使使用大量低质量数据(例如中间插入广告的一堆文本)。这是因为模型在看到足够的数据后会自动过滤掉广告。然而,我们目前认为机器人缩放来自相对高质量的数据。如果输入大量复杂的数据,机器人模型将不知道将注意力集中在哪里,最终不会得到很好的结果。第 3.3 章 上一页观点3:机器人之间的泛化能力物理智能π0模型和开源OpenVLA模型可以控制多种不同的机器人。相同的模型或策略集可以在不同几何形状和硬件配置的机器人上有效地工作,而无需针对每种类型的机器人进行重新训练。这称为机器人之间的泛化能力。这很重要。此前,每种类型的机器人都需要单独的训练模型,成本高昂。现在,一种模型可以应用于多个机器人,并且可以共享数据。这显着降低了成本。但技术难度也很明显。不同的机器人有很大不同的操作空间、不同的臂长和不同的关节数量。我们如何在模型中更好地控制它?这种在完全陌生的环境中工作的能力并不是 100% 完美,但我们已经看到了显着的改进。第 3.4 章预览 4:多机协作 图表 s如何使用单个神经网络来协调两个机器人的协作。创新的是,单个神经网络可以用来控制上半身的35个自由度,甚至可以控制两个机器人的协调。听起来很容易,但实际上非常困难。两个机器人必须协同工作,精确同步它们的时间、力量和位置。这可能在未来的工厂场景中有用,但仍处于验证的早期阶段。这些技术进步都不是颠覆性的,但它们无疑是进步的。这正是 2025 年的意义所在。我们不再追逐有趣的演示,而是不断走向可验证、可量化和可复制的方向。技术进步是一方面,但行业中仍有一些大山需要克服。对这些问题的清醒认识是“理性进步”的前提,也是当前智能化的关键所在。发生在大爆炸前夕。 04 未解决的核心问题 第4.1章 问题一:数据困境 首先是数据困境。 ChatGPT 使用数十亿个代币进行训练。这与从整个互联网提供文本相同。然而,关于机器人行为的数据非常缺乏。 Google 训练了 RT-2 模型,并花了 17 个月在真实厨房收集了 130,000 个数据点。场景的概括仍然存在局限性。机器人为什么会数数?收集数据有那么难吗?真正的机器人需要在真实环境中运行,因此每条数据都是昂贵且耗时的,并且错误可能会损坏设备。这是一个爬虫,与可以获得的文本数据不同,因此,大多数基本的机器人模型仍然基于少量的真实数据和大量的模拟合成数据来为技术提供动力。ace强化学习/自我控制。柯黎明,身体智能研究员 假设一个人的一生就是100年,可以计算出大约100万小时。从我所看到的,或者从公开的信息来看,似乎没有人拥有100万小时的数据集。这是我的假设。我认为我们可以稍后开始研究它,一旦我们能够接收一百万小时的数据,这相当于人类一生的身体经历。如果说数据是机器人的“石油”,那么这口井还没有打完。第4.2章问题2:模拟与现实之间的差距在虚拟世界中训练机器人非常便宜,并且可以同时运行数以万计的模拟器。然而,虚拟世界与现实世界并不相同。仅仅因为您擅长赛车游戏并不意味着您可以驾驶 F1。现实世界中的摩擦、光滑度和光线变化非常复杂,模拟只能恢复现实世界的部分物理特性。剩下的就是机器人从模拟器到现实世界“适应”的源泉。NVIDIA 的 Genesis 和 Isaac 模拟器正在努力缩小这一差距,但完全缩小还需要时间。第 4.3 章问题 3:公司差距 人手有 27 个关节,可以感受压力、温度和纹理。机器人灵巧的手通常只有 15 到 22 个关节,其传感器也不是很强大。即使完美模仿人体运动轨迹,效果也会有所不同。人类可以小心地捡鸡蛋,但机器人却可以狠狠地砸碎它们。约克联合创始人Yang Dyna Robotics 首先,如果想要成功转移人手和机器人手的能力,它们需要靠近在一起。这就是为什么今天许多人从事尽可能接近人类自由的极其熟练的工作。这本身就是极其困难的。其次,无论你们有多接近,它们永远不会完全相同。因此,机器人数据与人类数据之间仍然存在差距。这就是我们所说的“转世差距”。这种实施差距被学术界和工业界普遍认为是一个难以解决的问题。因此,这种数据迁移的效率比较低。这有一定的局限性,因为即使你收集了大量的数据,如果你只得到30%或50%,你就必须成倍地增加可能性的数量。这意味着特斯拉利用 YouTube 大量人类视频来训练 Optimus 的策略面临重大技术挑战。这就是特斯拉生产10辆车的原因。车号00之后,将暂停更新。想法很美好,但现实却很脆弱。第4.4章问题4:可靠性 ChatGPT给出了错误的答案,但用户笑了。如果机器人发生故障,可能会造成财产损失或人身伤害。这是一个质的区别。嵌入式智能在部署到工厂和家庭之前必须达到非常高的可靠性。该标准比大型语言模型的标准严格得多。第4.5章问题em 5:成本困境 目前,人形机器人的价格必须降至 2 万美元左右,才能在物流等场景中具有足够的吸引力。但价格下降需要大规模生产。大规模生产需要大量订单。对于大订单,价格应该足够低。这是一个循环困境,首先需要有人打破僵局。玉树5900美元的价格是打破僵局的一次尝试,但能否引发价格竞争、推动全行业成本降低还有待观察。认识到这些困难并不意味着悲观,而是理性。嵌入式智能即将爆发,因为初创公司认识到这些瓶颈的存在。 05 顶尖公司与技术路径 第5.1章 硬件巨头:Tesla和Figure 这组包括Tesla和Figure。他们的策略是将软件和硬件集成在一起以创建数据闭环。特斯拉也可以利用其在FSD汽车领域的积累自主驾驶技术将视觉识别和路线规划能力传输给Optimus,并利用工厂生产线积累数据。 “我们从一个有轮子的机器人变成了一个有腿的机器人,”前工程总监米兰·科瓦奇直言不讳地说。然而,现实比想象的更加复杂。只达到了 5,000 套目标的五分之一,重新设计不得不取消。这说明,即使是特斯拉这样的巨头,也不得不向物化差距低头。 Figure从OpenAI“分拆”出来后,独立开发了Helix模型,并管理了自己的技术路径。 Helix型号在不到两周的时间内推出,表明了它们在技术上的优越性。 15倍的估值涨幅也表明资本市场已经意识到了这条路线。然而,只有几十种已投入商业化。该演示很有趣,但扩展仍在进行中。第二个流派是物理智能和 Skuid AI,我认为前面提到过。第5.2章人工智能公司:PI和Skild AI与许多同样押注于硬件的机器人初创公司不同。这些公司的策略是多平台适应形式和模型优先。物理智能的π0模型不依赖于特定的硬件,可以适应各种机器人。它的逻辑是首先改进模型的功能,然后让硬件选择最佳的解决方案。另一家公司是 Skild AI,一家专注于构建基本机器人模型的软件公司。 Skild AI的主要方向也是创建一个独立于特定机器人形状的通用基础模型。适应各种机器人平台和应用。适应和定制使用场景。今年7月,Skild AI推出了Skild Brain通用机器人系统,可以让机器人完成捡菜、爬楼梯等任务。发布了演示视频,展示了其威力。近期,软银和英伟达计划投资该公司的估值达到 10 亿美元,估值达到 140 亿美元。第5.3 章平台绿色平台:NVIDIA、Google 第三类是注重绿色的平台。 NVIDIA提供了模拟器和计算能力基础设施来发布GR00T N1开源,但如果你想使用它,你需要使用整个NVIDIA生态系统。 Google 持续投资学术研究,RT 系列模型正在影响整个学术界。他们为整个行业提供“水、电、煤”。任何能够制定行业标准的人都可以管理环境。 3条路线均在推进。没有哪个派别具有绝对的优势。大家都在尝试、迭代、调整。 06 总结与展望 未来仍然是未来,用不了多久我们就会回到最初的问题:具身智能是泡沫还是未来?答案是,到 2025 年,具身智能将从“先锋出现”转向“进步”,即理性。”总体而言,大模型+机器人的组合已经成功实现,但还远未成熟。数据、泛化性和可靠性等核心问题仍有待解决。与“GPT时刻”相比,自变机器人CTO王浩认为,我们现在已经达到了GPT-2的水平。王浩,自变量机器人CTO,我认为我们目前处于GPT-2阶段。事实上,我们从根本上知道,扩展是唯一可靠的方法,所以现阶段我们需要疯狂积累数据,提高模型的规模,同时构建真实的、物化的基础设施。我的预测是我们将在一两年内达到 GPT-3 的水平。请注意,这是 GPT-3,而不是 GPT-4。这不是一个优雅的判断。当研究人员看到这种规模带来的改进时,他们的道路和目标变得更加清晰和更加团结。业务领域,已开始行业场景测试运营,仓储、制造和服务行业的实施示例。但大规模商业使用可能还需要两到三年的时间。约克联合创始人 Yang Dyna Robotics 我们的目标是,希望在明年看到相对大规模的部署,至少在商业环境中。等到时机成熟时,您就可以将其用于家庭使用。这个时间应该不会太远,大概1、2年左右。可以说,投资中泡沫与机遇并存。有的企业估值飙升,有的企业停产,有的企业资产耗尽、破产。开源机器人公司 K-Scale Labs 筹集资金失败并关闭,而Figure AI 筹集资金并逐渐成熟。这两个极端的同时存在表明市场出现了分歧。尽管身体智力的长期趋势强劲,但短期波动也很大。第一个“杀手”会是谁?嵌入式智能的应用场景?无论是保洁、仓储物流、餐饮清洁服务等。而且针对每个场景,都已经有重量级的准备。具身智能只是何时发生的问题,而不是是否会发生的问题。 2025年,我们正处于这场革命的起点。行业不再局限于展示有趣的演示,而是开始验证技术、完善产品并寻找现场场景。特斯拉停产并不是失败,而是重新设计,寻找更可靠的前进道路。 Figure AI 的估值不断上升,是因为它像 Helix 一样带来了实质性的业绩,而不仅仅是资本的炒作。黛娜开始叠毛巾。虽然它的结构并不小,但它积累了数据的飞轮并提供了模型的学习能力。物理智能部分开源的π0在商业利益和技术共享之间找到了平衡点,并不是因为它是n不够开放。这是有原因的。对现有基础的不断改进是该行业日趋成熟的标志。 2025年,物联网产业已从“画饼”演变为撸起袖子做面团。这个蛋糕正在有计划地一点一点变成现实。注:部分图片来源于网络【本程序不构成投资建议】【视频播放渠道】全国:bilibili |腾讯|视频账号|雪瓜 |今日头条 |百家帐号 | 36克|微博 |虎秀海外:Youtube 联系方式:video@sv101.net 【主创团队】主管|洪军 作者:陈茜|Vicky编辑|陈茜编辑|雅各布行动|子勤、孙泽平、朱杰
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传并发布,网易号是一个仅提供信息存储服务的社交媒体平台。