时长:
158分钟
播放:
3.4万
发布:
4个月前
主播...
简介...
今天继续《商业访谈录》的机器人专场,嘉宾是北京大学助理教授、银河通用创始人兼CTO王鹤。
王鹤毕业于清华和斯坦福大学。他给我们从“具身智能”的学术缘起开始聊起,这是一个学术流派从一个学科中萌芽到边缘再到主流渗透的全过程。
而随着ChatGPT诞生,“具身智能”这个小众概念,在过去2年成了新的资本宠儿——但一时间,也带来了新的乱象。
我们探讨了一些具身智能产业界关键问题:
1/具身智能起源于计算机视觉的学术流派,视觉、语言、智能的关系是什么?为什么VLM(视觉语言模型)的表现显著弱于LLM(大语言模型)?
2/具身智能的最大困境之一是数据采集,合成数据是正解吗?具体应该怎么做?
3/如果大模型提倡的是“智能即产品”,那么具身智能呢?王鹤的回答是“生产力即产品”。
去年底,英伟达创始人黄仁勋来华访问。答谢宴上,王鹤不仅和黄仁勋同桌,而且就在做黄仁勋旁边(挨着坐)。在节目最后,我们也聊了聊这个有趣的插曲——他提到,那晚黄仁勋吃了不少水煮肉片。
2025,我们和AI共同进步!
我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
03:00 开始的自问自答
05:58 语言不是智能的本质,而是“一次跃变”
“具身智能”和“机器人”是不同学术流派
“具身智能”起源于“计算机视觉”的研究流派
视觉有智能吗?纯视觉智能的可解释性差,是端到端的
语言不是智能的本质,不能说没有语言就没有智能
智能的本质是什么?“一种视情况对环境做出反应的能力”
语言是人类能产生这么高智能的“一次跃变”
视觉的本质是一种非常强的sensor(传感器)
25:08 具身智能的学术边缘史
具身智能最早兴起的task(任务)是,导航
加入视觉模态,强调Perception–Action Loop(感知-动作循环),成为具身智能研究流派能立起来的核心叙事
标志性事件:“具身智能是计算机视觉未来的三颗北极星之一”(李飞飞)
我和Skild创始人Deepak Pathak在Facebook人工智能实验室FAIR打过交道
41:15 我的学术之路
2016年,博士第一个项目:从人类视频里学多步的人与物体交互过程的生成(动画领域)
在Stanford博士第一年,在不喜欢的方向非常挣扎,后来换组、换方向
Stanford是高度自由的市场:你可以随时踢你老板,你老板可以随时踢你
第一篇论文憋了很久,很绝望
完全从视频中学习,学习世界模型,还没成为当下能推进具身智能的技术
我的第二个项目:位姿估计和合成数据相关
2020年李开复曾在湾区丽思卡尔顿组织brunch,观点分歧
回国坚定以家庭机器人为目标推进research,根本没有allies(盟军)
01:25:08 具身智能的软件和硬件是螺旋上升的问题
ChatGPT火了以后,很多人开始找我创业,我说创不了
所有工业机械臂在去年的全球总产值才1000亿RMB,和理想一家车企产值相当
如果采取不成熟的激进的硬件方案,对智能会是一种拖累
在这个硬件基础上,我们的方案是,做相对专用的智能和越来越通用的智能
VLM为什么显著弱于LLM?互联网视觉数据/所有人眼观测的覆盖〈〈〈互联网文字数据/人类所有说的话的覆盖(VLM数据不够,VLA的Action数据是最近两年才开始收集的)
01:44:34 我们要避免陷入以下泥潭
这一代具身智能公司相比此前机器人公司,差异在哪?
在我看来,具身智能公司如果陷入以下两个泥潭,天花板会很有限:
1、“长期漂浮”的公司;2、“算不过来账”的公司,边际成本不降
我们要做一个应用场景内的泛化(现在选择的是货架场景)
在我看来,机器人领域的头部效应很重
01:55:17 具身智能是,“生产力即产品”
雇人摇操采真实数据的成本到底有多高?一笔经济账
真实数据在我们训练数据的比重是1%,合成数据管线挑起大梁
行业内的tricky现象:把没有功能的机器人卖给别人(这是一种商业模式)
关于合成数据和Sim-to-Real(仿真到现实迁移)的常见误区
有出货量后的数据回流和数据飞轮
如果大模型是“智能即产品”,那么具身智能就是“生产力即产品”
02:13:51 资本轰炸后的人为乱象
谁在创造生产力,谁在讲故事,这是最乱的——这个源自美国
对Figure的估值400亿美元的两种逻辑
有的人胆子很大,不告诉别人我是摇操,但实际摇操
呼吁:真实展示!不要摇操!
5年内我们一定要有万台以上的应用,如果做不到这个,我们这个领域就被证伪了!
不要去搞一些砸我们行业招牌的事情!这些模式是很可怕的,是在砸这个行业的饭碗
通用机器人的到来不要想得那么快
02:25:25 一个插曲
去年黄仁勋访华为什么和黄仁勋同桌且在旁边?聊了什么?
黄仁勋能吃辣,吃了很多水煮肉片
02:28:26 最后的快问快答
【机器人专场】
逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”
【更多信息】
联络我们:微博@张小珺-Benita
更多信息欢迎关注公众号:张小珺
王鹤毕业于清华和斯坦福大学。他给我们从“具身智能”的学术缘起开始聊起,这是一个学术流派从一个学科中萌芽到边缘再到主流渗透的全过程。
而随着ChatGPT诞生,“具身智能”这个小众概念,在过去2年成了新的资本宠儿——但一时间,也带来了新的乱象。
我们探讨了一些具身智能产业界关键问题:
1/具身智能起源于计算机视觉的学术流派,视觉、语言、智能的关系是什么?为什么VLM(视觉语言模型)的表现显著弱于LLM(大语言模型)?
2/具身智能的最大困境之一是数据采集,合成数据是正解吗?具体应该怎么做?
3/如果大模型提倡的是“智能即产品”,那么具身智能呢?王鹤的回答是“生产力即产品”。
去年底,英伟达创始人黄仁勋来华访问。答谢宴上,王鹤不仅和黄仁勋同桌,而且就在做黄仁勋旁边(挨着坐)。在节目最后,我们也聊了聊这个有趣的插曲——他提到,那晚黄仁勋吃了不少水煮肉片。
2025,我们和AI共同进步!
我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
03:00 开始的自问自答
05:58 语言不是智能的本质,而是“一次跃变”
“具身智能”和“机器人”是不同学术流派
“具身智能”起源于“计算机视觉”的研究流派
视觉有智能吗?纯视觉智能的可解释性差,是端到端的
语言不是智能的本质,不能说没有语言就没有智能
智能的本质是什么?“一种视情况对环境做出反应的能力”
语言是人类能产生这么高智能的“一次跃变”
视觉的本质是一种非常强的sensor(传感器)
25:08 具身智能的学术边缘史
具身智能最早兴起的task(任务)是,导航
加入视觉模态,强调Perception–Action Loop(感知-动作循环),成为具身智能研究流派能立起来的核心叙事
标志性事件:“具身智能是计算机视觉未来的三颗北极星之一”(李飞飞)
我和Skild创始人Deepak Pathak在Facebook人工智能实验室FAIR打过交道
41:15 我的学术之路
2016年,博士第一个项目:从人类视频里学多步的人与物体交互过程的生成(动画领域)
在Stanford博士第一年,在不喜欢的方向非常挣扎,后来换组、换方向
Stanford是高度自由的市场:你可以随时踢你老板,你老板可以随时踢你
第一篇论文憋了很久,很绝望
完全从视频中学习,学习世界模型,还没成为当下能推进具身智能的技术
我的第二个项目:位姿估计和合成数据相关
2020年李开复曾在湾区丽思卡尔顿组织brunch,观点分歧
回国坚定以家庭机器人为目标推进research,根本没有allies(盟军)
01:25:08 具身智能的软件和硬件是螺旋上升的问题
ChatGPT火了以后,很多人开始找我创业,我说创不了
所有工业机械臂在去年的全球总产值才1000亿RMB,和理想一家车企产值相当
如果采取不成熟的激进的硬件方案,对智能会是一种拖累
在这个硬件基础上,我们的方案是,做相对专用的智能和越来越通用的智能
VLM为什么显著弱于LLM?互联网视觉数据/所有人眼观测的覆盖〈〈〈互联网文字数据/人类所有说的话的覆盖(VLM数据不够,VLA的Action数据是最近两年才开始收集的)
01:44:34 我们要避免陷入以下泥潭
这一代具身智能公司相比此前机器人公司,差异在哪?
在我看来,具身智能公司如果陷入以下两个泥潭,天花板会很有限:
1、“长期漂浮”的公司;2、“算不过来账”的公司,边际成本不降
我们要做一个应用场景内的泛化(现在选择的是货架场景)
在我看来,机器人领域的头部效应很重
01:55:17 具身智能是,“生产力即产品”
雇人摇操采真实数据的成本到底有多高?一笔经济账
真实数据在我们训练数据的比重是1%,合成数据管线挑起大梁
行业内的tricky现象:把没有功能的机器人卖给别人(这是一种商业模式)
关于合成数据和Sim-to-Real(仿真到现实迁移)的常见误区
有出货量后的数据回流和数据飞轮
如果大模型是“智能即产品”,那么具身智能就是“生产力即产品”
02:13:51 资本轰炸后的人为乱象
谁在创造生产力,谁在讲故事,这是最乱的——这个源自美国
对Figure的估值400亿美元的两种逻辑
有的人胆子很大,不告诉别人我是摇操,但实际摇操
呼吁:真实展示!不要摇操!
5年内我们一定要有万台以上的应用,如果做不到这个,我们这个领域就被证伪了!
不要去搞一些砸我们行业招牌的事情!这些模式是很可怕的,是在砸这个行业的饭碗
通用机器人的到来不要想得那么快
02:25:25 一个插曲
去年黄仁勋访华为什么和黄仁勋同桌且在旁边?聊了什么?
黄仁勋能吃辣,吃了很多水煮肉片
02:28:26 最后的快问快答
【机器人专场】
逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”
【更多信息】
联络我们:微博@张小珺-Benita
更多信息欢迎关注公众号:张小珺
评价...
空空如也
小宇宙热门评论...
东一门饭桶
4个月前
新加坡
53
听他讲话觉得有些累,感觉他很用力哈哈
荣雨墨
4个月前
美国
33
本期嘉宾有点喜欢吹🐮
小饼饼
4个月前
上海
22
1:23:06 亚裔女性呢?毫不关心哈哈哈哈
Joes东
4个月前
美国
22
1. “视觉-语言-动作”三角不对称
• 数据稀缺性决定 VLM 远弱于 LLM:互联网视觉/动作数据的覆盖量远小于文本,且真实动作数据直到近两年才系统化收集。
• 行业启示:纯堆模型参数不够,必须同步铺“具身数据基建”与数据合成管线。 
2. 合成数据与 Sim-to-Real
• 合成数据不仅降低成本,也是让模型看到长尾罕见场景的唯一可行手段。
• 关键难题:物理一致性(Dynamics Gap)与传感器噪声匹配;王鹤强调“把合成链本身做成自研能力”,避免依赖商业引擎黑盒。
3. 商业模式:从“智能即产品”到“生产力即产品”
• 对比大模型 SaaS:具身智能产品必须落到 能替代人力、可核算 ROI 的具体生产力指标。
• 货架拣选-补货被银河通用选为首场景:既有足够 SKU 复杂度,又在物流环节中存在巨量潜在需求。
4. 资本泡沫与行业自律
• 2023-2025 年,具身机器人公司估值飙升(Figure 高达 400 亿美元),但多数样机仍严重依赖远程操控。
• 风险:一旦不能在 5 年内实现“万台级”落地,叙事将被证伪,资本抽离会反噬行业。
• 建议:建立第三方 Benchmark + 公开 Demo 规范,减少对外“演示即能力”的信息不对称。  
5. 王鹤与银河通用的定位
• 近期获 11 亿元人民币融资,估值跨过 10 亿美元独角兽门槛,印证其技术-资本双重背书。  
• 核心打法:自研合成数据链 + 专用硬件,先夺取单一场景规模,再“硬件外包 / 智能内核”模式横向扩展。
⸻
行业与听众启示
1. 数据飞轮先于硬件飞轮:具身智能的真实壁垒在于数据闭环,而不是第一台 demo 机器人。
2. 衡量指标从“参数”转向“单位成本产出”:下一代 AI-native 企业的竞争优势是生产效率,不是模型 FLOPs。
3. 警惕故事资本化:在估值-PR “加速主义”浪潮下,创业者与投资人需共同建立可验证的技术-商业里程碑体系。
4. 跨学科人才红利:Vision / Robotics / Simulation / Manufacturing 复合背景将成为具身智能核心人才画像。
⸻
后续关注
• 合成数据平台化:谁会成为“Stable Diffusion for Embodied AI”?
• **Robotics-as-a-Service(RaaS)**定价模型与渠道生态。
• 中美供应链差异对硬件 BOM 与迭代速度的影响。
• 法规与安全:具身智能在公共场所的伦理与责任边界。
露露大大
4个月前
北京
12
吹牛逼太严重
山里灵活的狗都有人注册
4个月前
广东
11
AMAZING王总是近几期嘉宾里面学术时间长但商味儿重的(Doge
西瓜晒太阳
4个月前
上海
11
王老师太能讲了,难怪能融到那么多钱
柚子能不放糖么Alex
4个月前
上海
10
真过瘾!王总口才太好了,像听了仨小时相声
戈叶普契安勃赫斯列夫
4个月前
山西
5
配得上10年后的人类愿望清单的一定是随身携带的机器人,数量比手机,价值比汽车,产业价值是现在的房地产位置。
小木林
4个月前
北京
4
agent 是老演员了,不是 LLM 之后才有的这种架构思想。
语言当然不代表智能,只是描述世界的密码本。信息密度,维度都很低。
已经看出来主持人是被泛泛而谈的数据训练并太快收敛了,这是做访谈的弊病,一切只是“听说”。
Adrian_XIIo
4个月前
湖北
3
要是王兴兴跟王鹤来上一场,那会多有趣呢
Whitney
4个月前
上海
3
鹤老师表达能力是真的强
HD464163w
4个月前
云南
3
我真的几分钟 我就骂了他全家了。
小润闲谈
3个月前
北京
3
1:24:17 他说话真的跟那个“北京爷们,要脸!”一模一样!
黑曜BlackFloyd
4个月前
广东
2
仿真就是伪命题啊…但凡能「仿真」,那就必然已经理解物理世界,也就自然实现AGI,那我还回过头来再做机器人AGI干嘛?另外,自动驾驶领域,Nv做得好?仿真顶多能当作一部分预训练。
J_bBjV
4个月前
北京
2
跟孙割风格有点像呀😄
呵呵哈嘿_h0Gg
3个月前
北京
2
1:37:33 非必要不增加不靠谱和不需要的零部件,别给自己找麻烦
NoKagami
2个月前
云南
2
感觉时间可以再缩短一些,开局三十分钟就在争词是谁造的,讲着讲着又在说导师如何选上自己的……果然十个亿估值就是得会讲故事🤣怪不得只会talk is cheap show me the code的技术人都好穷
TonyGuGu
4个月前
上海
2
说实话 上来几个重点(坐老黄旁边) 就代表现在是大泡沫
moonwalker_c
4个月前
北京
2
太牛逼了…33岁,十亿美金估值😅
人比人,真比不了,彻底躺平