切换到宽版
  • 12阅读
  • 2回复

[智能应用]2025具身智能行业年度盘点:从先锋亮相到理性前行 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
165365
金币
471931
道行
20030
原创
766
奖券
350
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20248(小时)
注册时间: 2012-06-21
最后登录: 2025-12-29
只看楼主 倒序阅读 使用道具 楼主  发表于: 6小时前
具身智能是2025年的最大的“泡沫”吗?
年初,宇树突然放大招,发布了5900美元的R1人形机器人。要知道,就在一年前,业内普遍认为人形机器人的成本底线还在2到3万美元,宇树这一招,相当于把整个行业的价格预期直接打碎。
紧接着,Figure AI的估值从2024年的26亿美元一路狂飙到390亿美元,达到了15倍的增长。投资方名单读起来像科技圈的奥斯卡颁奖典礼:微软、OpenAI、英伟达、贝佐斯、英特尔、三星。

资本市场疯狂押注,仿佛具身智能的未来近在咫尺。
但与此同时,特斯拉喊出要生产5000台Optimus的豪言壮语,实际只组装了大约1000台就按下暂停键,面临重新设计。马斯克那句“特斯拉八成的价值将来自于Optimus”的豪言,在现实面前显得有些尴尬。
这一冷一热,实在是有点让人困惑。具身智能到底发展到哪一步了?本篇文章就将从算法、硬件、数据、资本以及主要大玩家路线等等这几个方向一一给大家展开解读。
01
具身智能是什么?为什么2025年爆发?
在聊行业现状之前,先说清楚什么是具身智能。
如果说ChatGPT是“会说话”的AI,那具身智能就是“会动手”的AI。它的核心是VLA,Vision-Language-Action,视觉-语言-动作模型。它把三个东西统一到一个神经网络里:Vision(视觉):看到当前的场景;Language(语言):理解任务目标和常识;Action(动作):输出具体的控制指令。

简单说就是三个能力:看得懂环境、听得懂指令、做得到动作。
这和传统机器人有什么不同?
打个比方,传统工业机器人就像只会背固定台词的演员,你给它编好程序,它就按部就班执行;但具身智能机器人更像会即兴表演的演员,它能理解环境变化,自主做决策。
比如你让它叠毛巾,传统机器人需要毛巾每次摆放位置完全一样。但具身智能机器人能识别:哦,这次毛巾皱了、偏了,那我调整一下动作轨迹,照样能叠好。
Dyna Robotics是硅谷炙手可热的具身智能公司,一年前刚成立,如今A轮融资达到1.2亿美元,估值6亿美元,投资人包括英伟达。而“叠毛巾”这个任务正是让Dyna最先火出圈的demo。


York Yang Dyna Robotics联合创始人 VLA简单来说就是我们拿了大模型领域VLM作为“backbone”(核心),但是我们会在最终输出结果的时候,把这个结果转化成在机器人领域可用的action(动作)。action(动作)直观理解就是,比如说我要把这个手臂移动到某一个坐标点的这些命令。
VLA其实大家诟病最多的是:为什么我们需要L(Language,即“语言”)?因为在过去传统的机器人算法里面,很多都是纯基于视觉。但是你仔细去想,其实你大脑其实会产生类似于语言的东西,去告诉你在一个长线任务中,到底你第一步做什么,第二步做什么。
L的作用就在于,对于一些非常复杂的任务,它是可以通过在大语言上面已经训练出来很多逻辑性的东西(去处理),比如说你要喝水,它就会知道你需要找杯子或者找瓶子。这个是通过大语言模型已经直接可以给你的一些东西。利用VLA的主要目的,其实就是如何把Language(语言)跟Vision(视觉)够更好地结合起来,否则你如果只有Vision(视觉),你能做的任务可能就都是短线的,你做不了任何长线的、需要去做推理的一些任务,所以这是我们为什么非常专注地引入语言这部分的主要原因。

这就是质的飞跃:机器人不再是执行固定程序的机械臂,而是通过视觉-语言-动作的集合,能理解、能规划、能适应的智能体。
具身智能不是新概念,为什么2025年突然爆发?有这三个因素。
第一,大模型本身已经趋近于成熟。
无论是OpenAI还是其他公司近期发布的大模型,能力提升已更多体现为增量式演进,而非早期从GPT-3.5到GPT-4那样的跨越式跃迁。在这一背景下,大模型的整体能力正在趋于稳定,且已经足以作为具身智能系统的可靠基础能力层。
ChatGPT证明了,大语言模型能理解复杂指令、做推理规划。这套能力可以迁移到机器人上:你说“帮我做早餐”,它能规划出“先拿鸡蛋、再打蛋、然后开火煎”这样的多步骤序列。

第二,算力价格腰斩再腰斩。随着芯片厂商不断推出性能更强的新一代芯片,等效算力的单位成本呈现长期下降趋势,往往每隔几年,获得同等算力所需的成本就会降至此前的一半。
2023年,租一张NVIDIA H100 GPU还是天价。现在,云服务的算力价格战愈演愈烈,训练大模型的成本大幅降低。以前只有头部公司玩得起的游戏,现在创业公司也能上桌。

第三,硬件供应链成熟。
机器人硬件整体的零部件成熟度已经相对较高。尤其是在过去一年人形机器人热潮的推动下,大量资本和工程资源被投入到核心基础部件的研发中,包括电机、减速器等关键组件,使得相关技术持续成熟的同时,成本也在不断下降。
宇树直接把价格打到5900美元,此前,行业普遍认为2-3万美元的区间已经能实现规模化生产。成本曲线的陡降,让商业化不再是天方夜谭。
这三股力量叠加,把具身智能从实验室推向了商业化的前夜。但这不是盲目的乐观,而是基于技术成熟度的理性判断。所以,目前具身智能的能力边界在哪里,它能做什么?
02
机器人现在能做什么?
Chapter 2.1 已经能做的事情
我们先来说说能做到的事情:工业和商业场景已经有实际应用了。
叠毛巾、叠衣服,听起来简单,但Dyna的机器人能做到24小时叠700条毛巾,成功率99.4%。这在酒店、洗衣房已经是实打实的生产力。而且他们的基础模型里面包含了各种各样的场景数据,像切菜、切水果,准备食物,早餐清扫和物流分拣。

宝马集团BMW的工厂里,Figure的机器人在做简单装配和物料搬运。Agility Robotics的Digit在仓储物流场景搬箱子。1X也将向瑞典巨头EQT交付最多1万台1X Neo人形机器人,主要应用于制造、仓储、物流等工业场景。更别提亚马逊已经部署了100万台专用机器人,几乎要超过其156万人类员工的数量。
这些都不是Demo,是真实在跑的商业项目。这就是“理性前行”——不求全能,但求实用。
Chapter 2.2:正在攻克的任务
目前有什么还做不到,头部公司正在攻克的任务呢?比如说:中等难度的任务,像做早餐。
这是个“长线任务”,需要规划多个步骤:拿食材、切菜、摆盘、开火、翻炒。每一步都要精准执行,还得控制力度,不能把鸡蛋捏碎,也不能切菜切到手。Dyna最新的demo显示已经攻克了做早餐这个长线任务。

而Figure也展示过两台机器人协同工作的Demo,一台递工具,一台操作。这在家用场景很有用,但稳定性还在打磨。
Chapter 2.3:还做不到的事情
而最难的是家务。因为每个家庭环境都不一样。光照变化、物品摆放、家庭成员走动,这些都是“非结构化环境”的挑战。
相对来说,工厂是“结构化环境”,光线固定、物品位置固定、流程标准化。但家里完全是另一回事。而且家务还有个致命要求:零容错。机器人在工厂打碎个零件,损失可控。在家里打碎碗、伤到人,那就是事故。


王浩 自变量机器人CTO 比如说机器人执行任务的时候,桌布上有一个小的褶皱,你的杯子可能放置不稳,可能有一个透明物体反光,它刚好干扰了相机等等。这些微小的物理变化,人类其实可以凭直觉和丰富的经验去瞬间适应的,但由于非常依赖于数据驱动,AI大模型它面临这些新的挑战,它不一定能真正去感受到。

所以,机器人进家庭,技术门槛比进工厂高得多。但这不意味着遥不可及。


York Yang Dyna Robotics联合创始人 我们是觉得,最开始肯定是在我们当前在开拓的一些市场,比如商用服务,商用的一些人工的部分,就是和人工一起去完成一些任务,这样的一些场景。但是我们觉得家用其实也没有那么遥远,并不需要完整的、非常通用的AGI。你可能只需要几个任务就可以进入到家庭的场景里,先让机器人在家里面干起活来,然后逐渐地通过模型的迭代让它产生更多的能力。
当然我们的硬件成本降到普通家庭可承担的范围内,我们可能就会优先,比如说我先以叠衣服的功能卖给家庭,然后逐渐去拓展一些其他的功能。所以这个时间线应该也不遥远,可能也就在1~2年左右。

这就是“理性前进”——不是等到机器人变成科幻电影里的全能管家再推向市场,而是从一个明确的、用户真正需要的功能切入,逐步迭代。
03
2025年的技术突破
虽然挑战重重,但2025年确实有几个值得关注的技术突破。业内人士很坦诚地告诉我们,每一个突破都不是革命性的,但都是实实在在的进步。
Chapter 3.1 突破点1:双系统架构流行起来
很多公司开始采用所谓“System 1 + System 2”的架构。

System 1是“快思考”,负责反射性动作,比如抓取、移动,参数量小,响应快,可能只有8000万参数。
System 2是“慢思考”,负责复杂规划,比如“做早餐”这种多步骤任务,参数量大,可能有70亿参数。
这种分工很像人类大脑:你伸手接球是本能反应,但规划一顿饭需要仔细思考。
Figure AI的Helix模型就是这个架构的代表作。它们在和OpenAI“分手”后,两周内迅速推出这个自研模型,创新性地用单一神经网络控制整个上半身的35个自由度,还能同时控制两台机器人协作。
这种架构的成功,证明了机器人基础模型和大语言模型的Scaling Law可能不一样——不是越大越好,而是要找到合适的参数分配策略。
Chapter 3.2 突破点2:合成数据的革命
机器人数据为什么这么贵?原因也很简单:因为人类一天只有24小时,收集真实操作数据太慢太贵。

NVIDIA的解决方案是:用模拟器生成合成数据。他们展示过,11小时内生成78万条操作轨迹。相当于6500小时或连续九个月的人类演示数据。虽然合成数据和真实数据有差距,但至少解决了“数据荒”的燃眉之急。
但这里有个关键的技术权衡。

York Yang Dyna Robotics联合创始人 因为我们之前也和挺多做大语言模型的这些人聊过,他们已经发现,语言方向的数据,哪怕用很多低质量数据,比如一堆文本,中间插了一段广告,然后再是接着文本,就这样的数据它一样能训练出比较好的模型。因为模型它看的数据足够多之后,它自动就会过滤掉广告。但是机器人当前我们觉得scaling(规模化)更多的是来自于比较高质量的数据。你如果囊括了很多很繁杂的数据在里面,机器人模型可能就不知道我要pay attention(注意力集中)在哪一个地方,所以最终它其实出来的效果并没有那么好。
Chapter 3.3 突破点3:跨机器人泛化能力
Physical Intelligence的π0模型、开源的OpenVLA模型都能控制多种不同的机器人。同一套模型或策略,不需要为每一种机器人重新训练,就能够在不同形态、不同硬件配置的机器人上有效工作,这就叫跨机器人泛化能力。

这很重要。以前每种机器人都要单独训练模型,成本高昂。现在一个模型适配多种机器人,数据可以共享,成本大幅降低。
但技术难点也很明显:不同机器人的动作空间差异巨大,手臂长短不一、关节数量不同,怎么让一个模型都能控制好?
这种在完全陌生环境也能工作的能力,不是100%完美,但已经是实质性的进步。
Chapter 3.4 突破点4:多机协同
Figure展示过用单一神经网络协调两台机器人协作。创新性地用单一神经网络,控制整个上半身的35个自由度,同时还能控制两台机器人协作。

听起来简单,实际上难度很高。两台机器人要互相配合,时序、力度、位置都要精准同步。这在未来工厂场景会很有用,但现在还处于早期验证阶段。
这些技术突破,没有一个是颠覆性的,但每一个都在扎实推进。这正是2025年的特点:不再追求炫酷的Demo,而是在可验证、可量化、可复现的方向上稳步前进。
技术突破是一方面,但行业里还有几座大山没翻过去。清楚认识这些难题,恰恰是“理性前进”的前提,也让现在的具身智能来到了大爆发的前夜。
04

没解决的核心问题Chapter 4.1 难题1:数据困境
首先,是数据困境。ChatGPT训练用了万亿级token,相当于把整个互联网的文字都喂给它了。

但机器人操作数据极度稀缺。Google训练RT-2模型,花了17个月在真实厨房收集13万条数据,场景泛化能力依然有限。
为什么机器人数据这么难收集?因为需要真实机器人在真实环境操作,每一条数据都要花钱花时间,出错还可能损坏设备。这不像文本数据,爬虫跑一跑就有了。所以大多数机器人基础模型仍依赖于少量真实数据加大量模拟合成数据加强化学习/自监督方法。


柯丽一鸣 Physical Intelligence研究员 一个人的一生假设是100年的话,大概我们很粗略的算就是100万个小时,我觉得现在在我的目所能及或者我公开信息看到的范围里,好像没有人有100万小时的数据集,我是这么猜想的。 我会觉得什么时候我们能够收到100万小时等同于一个人一生的物理经验的数据,我觉得可能我们才开始后面的探索。

如果说数据是机器人的“石油”,但现在这口井还没打出来。
Chapter 4.2 难题2:Sim-to-Real Gap
在虚拟世界训练机器人很便宜,可以同时跑几万个模拟器。但虚拟世界永远不等于真实世界。就像你玩赛车游戏很厉害,不代表真的会开F1。

真实世界的摩擦力、柔软度、光线变化太复杂,仿真只能还原部分真实物理特性。剩下的就是机器人从模拟器到真实世界“水土不服”的根源。
NVIDIA的Genesis和Isaac模拟器在努力缩小这个gap(差距),但完全消除还需要时间。
Chapter 4.3 难题3:Embodiment Gap
人手有27个关节,能感知压力、温度、质地。机器人的灵巧手通常只有15-22个关节,传感器也没那么精细。即使完美模仿人类的动作轨迹,效果也不同。人类能轻柔地拿起鸡蛋,机器人可能一用力就捏碎。


York Yang Dyna Robotics联合创始人 第一,人类的手和机器人的手,如果你想让它这个能力迁移得很好,需要做得非常接近。这也是为什么现在有好多人在做很灵巧的灵巧手,非常接近人的自由度,这件事本身是一件非常困难的事情。
第二,但你再接近,它也不是完全一样。所以在机器人的数据和人的数据中间还是会有一个鸿沟,就我们所谓的embodiment gap,这个embodiment gap在当前学术界也好、工业界也好,大家都公认是一个比较难解决的问题。所以这样的数据迁移的效率会比较低,哪怕你采集了很多数据,如果只有30%或者50%可用,你的总数量就会需要去乘以可能性的数字,所以这是它的一定的局限性。

这就意味着,特斯拉想用YouTube上海量人类视频训练Optimus的策略,面临巨大的技术挑战。这也是为什么特斯拉在生产了1000台后暂停重新设计。理想很美好,现实很骨感。
Chapter 4.4 难题4:可靠性
ChatGPT回答错了,用户笑笑就过去了。机器人动作错了,可能砸坏东西、伤到人。这是质的区别。

具身智能必须达到极高的可靠性,才能真正走进工厂、走进家庭。这个标准比大语言模型严苛得多。
Chapter 4.5 难题5:成本困境
目前人形机器人价格需要降到2万美元左右,才能在物流等场景形成足够吸引力。
但价格下降需要规模化生产。规模化生产需要大量订单。大量订单需要价格足够低。
这是个循环困境,需要有人先打破僵局。宇树的5900美元定价就是在尝试打破这个僵局,但能否引发价格战,带动整个行业降本,还需要观察。

认清这些难题,不是悲观,而是理性。正是因为目前初创公司们都很实在地承认这些瓶颈存在,具身智能才来到了爆发的前夜。
05
主要玩家和技术路线
Chapter 5.1 硬件巨头:Tesla、Figure
这一派公司包括了特斯拉和Figure,他们的策略是软硬件一体化,打造数据闭环。
Tesla利用FSD自动驾驶技术的积累,把视觉感知、路径规划的能力迁移到Optimus上,还能用工厂的生产线积累数据。前工程主管Milan Kovac说得很直白:“我们只是从轮子上的机器人变成长着腿的机器人。”

但现实比预期复杂。5000台的目标只完成了五分之一,就不得不暂停重新设计。这说明即使是特斯拉这样的巨头,在embodiment gap面前也要低头。
Figure则在和OpenAI“分手”后,独立开发了Helix模型,自己掌控技术路线。两周内推出的Helix模型,展示了他们确实有技术实力。15倍的估值涨幅,也证明资本市场对这条路线的认可。
但他们真正商业化部署的也就几十台。Demo很精彩,规模化还在路上。第二派就是我们刚才提到的Physical Intelligence和Skuid AI。
Chapter 5.2 AI公司:PI和Skild AI
与多家同时押注硬件的机器人初创公司不同,这些公司的策略是模型先行,跨平台适配。
Physical Intelligence的π0模型不绑定特定硬件,能适配多种机器人。他们的逻辑是:先把模型能力做强,硬件可以后续选择最优方案。

而另外一家则是Skild AI,一家专注于构建机器人基础模型的软件公司。Skild AI核心方向同样是打造一种与具体机器人形态无关的通用基础模型,可根据不同机器人平台和应用场景进行适配与定制。
今年7月,Skild AI发布了其通用机器人系统Skild Brain,并公开演示视频,展示机器人完成拿取餐具、上下楼梯等操作能力。近期软银与英伟达正计划对它投资10亿美元,把它的估值提升到140亿美元。
Chapter 5.3 生态平台:NVIDIA、Google
第三类是主打生态的平台。
NVIDIA提供模拟器和算力基础设施,推出GR00T N1并开源,但你要用就得用全套NVIDIA生态。Google则在学术研究上持续投入,RT系列模型影响了整个学术界。

他们为整个行业提供“水电煤”。谁能制定行业标准,谁就掌握了生态控制力。
这三种路线,都在前进。没有哪一派已经占据绝对优势,大家都在试错、迭代、调整。
06
总结与展望
未来还未来,已经不遥远
回到开头的问题:具身智能是泡沫还是未来?
答案是:2025年,具身智能正在从“先锋亮相”转向“理性前行”。
技术上,大模型+机器人的结合已经跑通,但远未成熟。数据、泛化、可靠性这些核心难题还没解决。
如果用“GPT时刻”来类比,自变量机器人CTO王浩认为,我们现在是GPT-2的水平。


王浩 自变量机器人CTO 我会觉得现在就是在GPT-2的阶段,其实我们现在基本上已经知道规模化它是唯一的一个可靠路径了,所以我们就是要在这个阶段去疯狂地积累数据,提升模型规模,同时去搭建真实具身的这种基础设施。我的预测会到1~2年的时间,我们完全可以达到GPT-3的水平。

注意,是GPT-3,不是GPT-4。这就是毫不花哨的判断。由于研究员们看到了这种规模化带来的提升,所以路径和目标更加明确,也更加唯一。
而在商业上,工业场景开始试点,仓储、制造、服务业都有落地案例。但大规模商用可能还需要2-3年时间。


York Yang Dyna Robotics联合创始人 我们自己的目标是在明年我们至少希望在商用场景有比较大规模的部署。家用我们会择机看,这个时间线应该也不遥远,可能也就在1~2年左右。

投资上,可以说泡沫和机会并存。有公司估值飙升,也有公司暂停生产,也有公司钱烧光了而破产。
开源机器人公司K-Scale Labs融资失败倒闭,Figure AI拿钱拿到手软,这两个极端同时存在,说明市场正在分化,虽然具身智能的长期趋势确定,但短期波动剧烈。

而具身智能第一个“杀手级”应用场景会是什么?
有可能是家务任务,也可能是仓储物流,或者是餐饮清洁服务。而无论是哪个场景,都已经有重量级玩家在布局。具身智能不是“会不会发生”的问题,而是“什么时候发生”。
2025年,我们正站在这场革命的起点。行业不再只展示炫酷的Demo,而是开始脚踏实地验证技术、打磨产品、寻找场景。
特斯拉暂停生产,不是失败,是在重新设计,寻找更可靠的路径。
Figure AI估值飙升,不只是资本炒作,而是他们交出了Helix这样的实质成果。
Dyna从叠毛巾切入,不是格局小,而是在积累数据飞轮,培养模型的学习能力。
Physical Intelligence部分开源π0,不是不够开放,而是在商业利益和技术分享之间找平衡。
这种在现有基础上稳步提升,恰恰是行业走向成熟的标志。2025年,具身智能行业已经从“画大饼”,进化到卷起袖子和面团。这个饼,正在一点一点,有分寸地,变成现实。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
165365
金币
471931
道行
20030
原创
766
奖券
350
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20248(小时)
注册时间: 2012-06-21
最后登录: 2025-12-29
只看该作者 沙发  发表于: 6小时前
2025年具身智能行业经历了从概念热潮到务实落地的关键转折,核心发展脉络可概括为以下四个维度:

一、政策与资本:顶层设计引领,投资趋于理性
国家战略升级
具身智能首次写入《政府工作报告》,人形机器人国家标准体系加速构建,北京、上海等地提出打造“人形机器人第一城”目标,推动产业集群化发展。
资本热度分化
全年行业融资超500亿元,同比增长400%,但资金向头部企业集中(如宇树、智元全年融资均超10亿元)。一级市场呈现“重硬件更重实效”倾向,投机性资本逐步退潮。
二、技术突破与瓶颈:VLA模型落地,长尾任务待解
技术底座成熟
VLA(视觉-语言-动作)模型成为行业通用架构,实现环境感知-任务理解-动作执行的端到端闭环。大模型泛化能力提升、算力成本下降、硬件供应链成熟(如宇树将人形机器人单价压至5900美元),为商业化奠定基础。
能力边界明晰
已突破:工业场景的标准化任务(如物流搬运、电池装配、24小时毛巾折叠),成功率超99%;
待攻克:开放式环境的中等复杂度任务(如做早餐)、多任务动态切换、人机自然交互安全性。
三、商业化进程:从表演到生产力,工业场景率先突围
场景落地务实化
工业领域成主战场:Figure机器人在宝马工厂执行装配,优必选Walker S2实现7×24小时自主换电,宁德时代产线引入人形机器人后效率提升3倍;
服务领域聚焦刚需:傅利叶GR-3康养机器人提供情感交互,银河通用Galbot进驻零售场景。
量产能力初现
头部企业年出货量达千台级(如智元机器人年销5000台),但行业整体尚未脱离“数据采集驱动”阶段,成本与回报周期仍是规模化瓶颈。

四、未来挑战:泡沫隐现与生态重构
警惕低效扩张
部分企业扎堆低门槛表演场景(如商场引流机器人),同质化竞争压缩研发空间;特斯拉Optimus量产承诺跳票(目标5000台,实际交付约1000台)折射行业预期过热。
生态协同破局
硬件端:减速器、灵巧手等核心部件国产化提速,但高端传感器仍依赖进口;
数据端:真实场景数据匮乏制约算法迭代,全国新增11个机器人训练场加速闭环验证;
标准端:AI存储、通信协议等标准缺失,亟需构建跨企业技术框架。
结语:理性前行的关键命题
2025年标志着具身智能从“技术秀场”步入“价值检验期”。行业共识在于:通用型机器人仍是长期愿景,而专用型机器人将在3年内于工业、康养等垂直领域率先兑现经济价值。能否在成本控制、场景深耕与生态协作中取得平衡,将成为2026年分水岭之战的核心。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
214791
金币
633408
道行
2006
原创
2442
奖券
3260
斑龄
41
道券
1197
获奖
0
座驾
设备
摄影级
在线时间: 46838(小时)
注册时间: 2008-10-01
最后登录: 2025-12-29
只看该作者 板凳  发表于: 5小时前
具身智能是2025年的最大“泡沫”吗?——一场理性与狂热交织的技术革命前夜
“当所有人都说这是未来时,我们必须问一句:它真的准备好了吗?”
——本文试图穿透资本的喧嚣、Demo的炫技和估值的狂欢,回答一个根本问题:
具身智能(Embodied AI)在2025年,究竟是即将爆发的技术奇点,还是一场被过度包装的‘AI泡沫’?
🔍 一、现象级升温:为什么2025年突然“爆了”?
📈 资本市场的疯狂押注

| 公司 | 估值变化(2024→2025) | 投资方 |
|------|------------------------|--------|
| Figure AI | $2.6B → $39B(+1400%) | 微软、OpenAI、英伟达、贝佐斯 |
| Skild AI | 秘密成长 → $14B(软银+英伟达拟投$1B) | 英伟达、软银 |
| Dyna Robotics | 成立一年 → A轮$120M,估值$600M | 英伟达 |

✅ 这不是小打小闹的风险投资,而是科技巨头集体下注。

与此同时,硬件端也迎来价格断崖式下降:
宇树R1人形机器人发布价仅5900美元  
  → 打破行业普遍认为“2–3万美元为成本底线”的认知
特斯拉Optimus原计划量产5000台 → 实际组装约1000台后暂停重新设计

❗一边是资本狂热,一边是现实受挫。  
这种“冰火两重天”的局面,正是我们质疑“是否泡沫”的起点。
🤖 二、什么是具身智能?它真的“会动手”了吗?
定义:从“说话的AI”到“行动的AI”

| 类型 | 核心能力 | 代表产品 |
|------|----------|-----------|
| 传统大模型 | 理解语言 + 推理输出文本 | ChatGPT、Claude |
| 具身智能(VLA) | 视觉(Vision) + 语言(Language) + 动作(Action) | Figure, Dyna, Optimus |

💡 VLA = Vision-Language-Action 模型
Vision:感知环境(看得到)
Language:理解任务目标与常识(听得懂)
Action:生成可执行的动作指令(做得到)
✅ 质变在哪?——从“背剧本”到“即兴发挥”

| 传统工业机器人 | 具身智能机器人 |
|------------------|------------------|
| 需要固定流程编程 | 可自主规划多步任务 |
| 毛巾位置偏移就失败 | 能识别褶皱并调整抓取姿势 |
| 只能完成单一动作 | 可以连续完成“拿杯→倒水→递出” |

🎯 举例:Dyna Robotics 的机器人可以 24小时叠700条毛巾,成功率99.4%  
→ 已应用于酒店洗衣房场景,不再是Demo。
🔥 三、“泡沫论”的五大支撑点:为何有人怀疑它是炒作?

| 泡沫信号 | 表现 | 分析 |
|---------|------|-------|
| 1. 估值飙升远超技术进展 | Figure估值翻15倍,但实际部署仅几十台 | 资本追逐概念 > 商业落地速度 |
| 2. Demo精彩 ≠ 产品可靠 | 多家公司展示“做早餐”“协同搬运”,但未大规模商用 | 实验室表现≠真实世界稳定性 |
| 3. 成本与规模化悖论 | 单价需降至$2万以下才有竞争力,但降本依赖规模订单 | “先有鸡还是先有蛋”的困局 |
| 4. 家庭应用遥不可及 | 家务机器人要求零容错,目前技术难以满足 | 工厂可行,家庭仍属科幻 |
| 5. 硬件迭代频繁中断 | 特斯拉Optimus生产暂停,重新设计 | 表明embodiment gap比想象中更难突破 |

⚠️ 这些现象确实符合“泡沫”的典型特征:预期跑得太快,现实跟不上。
✅ 四、反泡沫证据:技术正在“理性前行”

尽管存在泡沫成分,但我们不能否认——2025年的具身智能已进入“实质性进步期”。
🔧 技术突破1:双系统架构(System 1 + System 2)

| 系统 | 功能 | 参数量 | 应用案例 |
|------|------|--------|------------|
| System 1(快思考) | 快速反应动作(如抓取) | ~80M | 控制机械臂实时运动 |
| System 2(慢思考) | 多步骤任务规划(如做早餐) | ~7B | 决策流程分解 |

🌟 Figure Helix模型 就采用此架构,两周内自研成功,控制35个自由度的上半身,并实现两机协作。

✅ 意义:证明“不是越大越好”,而是参数分配策略更重要。
🧬 技术突破2:合成数据革命

| 数据来源 | 效率对比 |
|----------|-----------|
| 人类演示采集 | Google RT-2耗时17个月收集13万条数据 |
| NVIDIA模拟器生成 | 11小时内生成78万条轨迹(≈6500小时人工) |

📉 挑战:合成数据虽快,但存在 Sim-to-Real Gap(仿真到现实的差距)
光线、摩擦力、物体变形等物理细节无法完全还原
导致模型在真实环境中“水土不服”

✅ 但至少解决了“无米之炊”的问题。
🔄 技术突破3:跨机器人泛化能力

| 模型 | 是否支持多种机器人? | 特点 |
|------|------------------------|------|
| Physical Intelligence π0 | 是 | 同一模型适配不同形态机器人 |
| OpenVLA(开源) | 是 | 支持多种平台迁移学习 |

🎯 意义:打破“每种机器人都要单独训练”的高成本模式,开启数据共享、模型复用的新时代。
🤝 技术突破4:多机协同控制
Figure 展示两台机器人协同工作:一台递工具,一台操作
使用单一神经网络同时控制两台设备
难点:时序同步、力度配合、空间避障

✅ 虽处于早期验证阶段,但在未来工厂自动化中有巨大潜力。
🧱 五、尚未翻越的五座大山

即使技术在前进,以下五个核心难题仍是制约商业化的核心瓶颈。
🏔️ 难题1:数据困境 —— “石油井还没打出来”

| 对比项 | 文本AI | 具身智能 |
|--------|--------|------------|
| 训练数据量 | 万亿token(整个互联网文本) | 数十万条真实操作数据 |
| 数据获取方式 | 爬虫自动抓取 | 真实机器人反复试错,耗时耗钱 |

🧑‍🔬 Physical Intelligence研究员柯丽一鸣指出:
> “目前没有人拥有相当于一个人一生(100万小时)的物理经验数据集。”
→ 数据稀缺直接限制模型泛化能力。
🏔️ 难题2:Sim-to-Real Gap —— 虚拟世界≠真实世界

| 仿真优势 | 仿真局限 |
|----------|-----------|
| 可并行运行万个模拟器 | 无法精确模拟真实物理特性(如弹性、滑动) |
| 成本低、速度快 | 真实世界的微小扰动(如风吹窗帘)会导致失控 |

🛠 解决方案:NVIDIA Isaac Sim、Genesis 正在努力缩小差距,但仍需时间。
🏔️ 难题3:Embodiment Gap —— 人手 vs 机械手

| 人类手部 | 当前灵巧手 |
|----------|-------------|
| 27个关节 | 15–22个 |
| 多模态感知(压力、温度、质地) | 有限触觉反馈 |
| 直觉适应复杂环境 | 依赖大量训练数据 |

🗣️ Dyna联合创始人York Yang坦言:
> “哪怕你采集了很多数据,如果只有30%-50%可用,总数量就要打折。”
→ 形态差异导致数据迁移效率低下。
🏔️ 难题4:可靠性要求极高

| 错误后果 | 文本AI | 具身智能 |
|----------|--------|------------|
| 回答错误 | 用户一笑而过 | 可能砸坏物品、伤人 |
| 容错率 | 高 | 极低(接近零容错) |

✅ 在家庭或医疗场景中,任何一次失误都可能是灾难性的。
🏔️ 难题5:成本与规模化的死循环


┌────────────┐     ┌────────────┐
│ 降低价格   │ ←─ │ 扩大规模生产 │
└──────┬─────┘     └──────┬─────┘
       │                    │
       └───← 需要订单支持 ←──┘


🌀 宇树以$5900定价试图打破僵局,但能否引发全行业降价潮尚待观察。
🧩 六、主要玩家路线图:谁在领跑?谁在布局生态?

| 类型 | 代表公司 | 技术路线 | 商业策略 |
|------|----------|-----------|------------|
| 硬件巨头派 | Tesla、Figure | 软硬件一体化,打造闭环 | 自建产线,积累数据 |
| AI模型派 | PI、Skild AI | 模型先行,跨平台适配 | 输出通用基础模型 |
| 生态平台派 | NVIDIA、Google | 提供“水电煤”基础设施 | 控制标准与工具链 |
🔹 Tesla:理想宏大,现实骨感
利用FSD自动驾驶技术迁移至Optimus
“轮子上的机器人 → 长腿的机器人”
结果:目标5000台 → 实际完成约1000台 → 暂停重新设计

❗说明:即使是特斯拉,在embodiment gap面前也要低头。
🔹 Figure AI:独立突围,Helix模型惊艳
曾依赖OpenAI,后“分手”自研Helix
两周推出新模型,展示强大工程能力
估值暴涨反映市场对其技术路径的认可

✅ 但真正商业化部署仍仅几十台 → Demo强,落地慢。
🔹 Skild AI & PI:软件定义机器人
不造硬件,专注构建通用机器人操作系统
Skild Brain 已公开演示上下楼梯、取餐具
软银+英伟达拟投$1B,估值冲向$14B

✅ 逻辑清晰:先做“安卓”,再让别人来造“手机”。
🔹 NVIDIA:做“卖铲人”
发布GR00T N1模型并开源
提供Isaac Sim模拟器 + GPU算力
目标:成为整个行业的“技术底座”

🛢️ 谁掌握生态,谁就掌控未来。
📊 七、发展阶段定位:我们现在处在哪个阶段?

自变量机器人CTO王浩给出精准比喻:

> “我们现在是GPT-2的水平。”

| 阶段 | 特征 | 当前状态 |
|------|------|-----------|
| GPT-1 | 原始探索,能力有限 | 2022年前的机器人研究 |
| GPT-2 | 初步涌现,可完成特定任务 | 2025年现状(如叠毛巾、搬箱子) |
| GPT-3 | 显著提升,广泛适用 | 预计1–2年内可达 |
| GPT-4 / AGI | 全能通用,类人智能 | 尚远 |

✅ 关键判断:我们正处于“GPT-2向GPT-3跃迁”的临界点。
🎯 八、第一个“杀手级应用”会是什么?

| 场景 | 可行性 | 竞争格局 |
|------|--------|-----------|
| 仓储物流 | ★★★★☆ | Agility、1X、亚马逊已部署 |
| 制造业装配 | ★★★★ | BMW、特斯拉工厂试点 |
| 商用清洁/餐饮服务 | ★★★☆ | 酒店叠衣、餐厅送餐 |
| 家庭家务 | ★★ | 成本高、可靠性不足,短期难普及 |

✅ 最可能率先爆发的是:工业场景中的重复性劳动替代(如分拣、搬运、简单装配)
🌍 九、结论:泡沫与未来的双重属性

| 维度 | 是泡沫? | 是未来? |
|------|----------|-----------|
| 资本热度 | ✅ 存在过热,部分公司估值虚高 | ❌ |
| 技术进展 | ❌ 多数突破真实存在 | ✅ 正稳步前进 |
| 商业落地 | ❌ 规模化尚早 | ✅ 已有真实收入场景 |
| 长期趋势 | ❌ 不可持续?否 | ✅ 人类对自动化的需求永恒 |
| 短期波动 | ✅ 必然经历洗牌 | ✅ 幸存者将重塑行业 |
✅ 最终答案:

### 具身智能不是纯粹的泡沫,也不是即时的奇迹。
### 它是——一场正在进行中的“理性革命”。
🧭 我们的判断框架:

| 时间线 | 展望 |
|--------|--------|
| 2025年 | 技术验证期:从Demo走向真实场景测试 |
| 2026–2027年 | 商业化起步期:工业领域初步规模化 |
| 2028年后 | 生态成型期:出现类似“安卓+ARM”的标准组合 |
| 2030年左右 | 家庭普及期:若成本降至$1万以内,有望进入消费端 |
🔚 结语:站在历史的门槛上

具身智能不会像ChatGPT那样一夜爆红,  
因为它面对的是物理世界的沉重惯性:  
材料、力学、安全、成本……

但它也不会消失,  
因为它的终极使命是清晰的:

让机器真正走进人类的生活空间,成为我们的伙伴,而不是工具。

2025年,我们正站在这场革命的起点。  
没有神话,没有终点,只有一步一个脚印的攀登。

正如那句话所说:

“未来已来,只是分布不均。”

而现在,我们正在亲手把它变得均匀一点。
🔚 具身智能不是泡沫,而是正在凝结的现实。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个