Album
时长:
158分钟
播放:
3.06万
发布:
1个月前
主播...
简介...
https://xiaoyuzhoufm.com
今天继续《商业访谈录》的机器人专场,嘉宾是北京大学助理教授、银河通用创始人兼CTO王鹤。
王鹤毕业于清华和斯坦福大学。他给我们从“具身智能”的学术缘起开始聊起,这是一个学术流派从一个学科中萌芽到边缘再到主流渗透的全过程。
而随着ChatGPT诞生,“具身智能”这个小众概念,在过去2年成了新的资本宠儿——但一时间,也带来了新的乱象。
我们探讨了一些具身智能产业界关键问题:
1/具身智能起源于计算机视觉的学术流派,视觉、语言、智能的关系是什么?为什么VLM(视觉语言模型)的表现显著弱于LLM(大语言模型)?
2/具身智能的最大困境之一是数据采集,合成数据是正解吗?具体应该怎么做?
3/如果大模型提倡的是“智能即产品”,那么具身智能呢?王鹤的回答是“生产力即产品”。
去年底,英伟达创始人黄仁勋来华访问。答谢宴上,王鹤不仅和黄仁勋同桌,而且就在做黄仁勋旁边(挨着坐)。在节目最后,我们也聊了聊这个有趣的插曲——他提到,那晚黄仁勋吃了不少水煮肉片。
2025,我们和AI共同进步!
我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
03:00 开始的自问自答
05:58 语言不是智能的本质,而是“一次跃变”
“具身智能”和“机器人”是不同学术流派
“具身智能”起源于“计算机视觉”的研究流派
视觉有智能吗?纯视觉智能的可解释性差,是端到端的
语言不是智能的本质,不能说没有语言就没有智能
智能的本质是什么?“一种视情况对环境做出反应的能力”
语言是人类能产生这么高智能的“一次跃变”
视觉的本质是一种非常强的sensor(传感器)
25:08 具身智能的学术边缘史
具身智能最早兴起的task(任务)是,导航
加入视觉模态,强调Perception–Action Loop(感知-动作循环),成为具身智能研究流派能立起来的核心叙事
标志性事件:“具身智能是计算机视觉未来的三颗北极星之一”(李飞飞)
我和Skild创始人Deepak Pathak在Facebook人工智能实验室FAIR打过交道
41:15 我的学术之路
2016年,博士第一个项目:从人类视频里学多步的人与物体交互过程的生成(动画领域)
在Stanford博士第一年,在不喜欢的方向非常挣扎,后来换组、换方向
Stanford是高度自由的市场:你可以随时踢你老板,你老板可以随时踢你
第一篇论文憋了很久,很绝望
完全从视频中学习,学习世界模型,还没成为当下能推进具身智能的技术
我的第二个项目:位姿估计和合成数据相关
2020年李开复曾在湾区丽思卡尔顿组织brunch,观点分歧
回国坚定以家庭机器人为目标推进research,根本没有allies(盟军)
01:25:08 具身智能的软件和硬件是螺旋上升的问题
ChatGPT火了以后,很多人开始找我创业,我说创不了
所有工业机械臂在去年的全球总产值才1000亿RMB,和理想一家车企产值相当
如果采取不成熟的激进的硬件方案,对智能会是一种拖累
在这个硬件基础上,我们的方案是,做相对专用的智能和越来越通用的智能
VLM为什么显著弱于LLM?互联网视觉数据/所有人眼观测的覆盖〈〈〈互联网文字数据/人类所有说的话的覆盖(VLM数据不够,VLA的Action数据是最近两年才开始收集的)
01:44:34 我们要避免陷入以下泥潭
这一代具身智能公司相比此前机器人公司,差异在哪?
在我看来,具身智能公司如果陷入以下两个泥潭,天花板会很有限:
1、“长期漂浮”的公司;2、“算不过来账”的公司,边际成本不降
我们要做一个应用场景内的泛化(现在选择的是货架场景)
在我看来,机器人领域的头部效应很重
01:55:17 具身智能是,“生产力即产品”
雇人摇操采真实数据的成本到底有多高?一笔经济账
真实数据在我们训练数据的比重是1%,合成数据管线挑起大梁
行业内的tricky现象:把没有功能的机器人卖给别人(这是一种商业模式)
关于合成数据和Sim-to-Real(仿真到现实迁移)的常见误区
有出货量后的数据回流和数据飞轮
如果大模型是“智能即产品”,那么具身智能就是“生产力即产品”
02:13:51 资本轰炸后的人为乱象
谁在创造生产力,谁在讲故事,这是最乱的——这个源自美国
对Figure的估值400亿美元的两种逻辑
有的人胆子很大,不告诉别人我是摇操,但实际摇操
呼吁:真实展示!不要摇操!
5年内我们一定要有万台以上的应用,如果做不到这个,我们这个领域就被证伪了!
不要去搞一些砸我们行业招牌的事情!这些模式是很可怕的,是在砸这个行业的饭碗
通用机器人的到来不要想得那么快
02:25:25 一个插曲
去年黄仁勋访华为什么和黄仁勋同桌且在旁边?聊了什么?
黄仁勋能吃辣,吃了很多水煮肉片
02:28:26 最后的快问快答
【机器人专场】
逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”
【更多信息】
联络我们:微博@张小珺-Benita
更多信息欢迎关注公众号:张小珺
评价...

空空如也

小宇宙热门评论...
取个好名字真难
1个月前 新加坡
26
听他讲话觉得有些累,感觉他很用力哈哈
Joes东
1个月前 美国
16
1. “视觉-语言-动作”三角不对称 • 数据稀缺性决定 VLM 远弱于 LLM:互联网视觉/动作数据的覆盖量远小于文本,且真实动作数据直到近两年才系统化收集。 • 行业启示:纯堆模型参数不够,必须同步铺“具身数据基建”与数据合成管线。  2. 合成数据与 Sim-to-Real • 合成数据不仅降低成本,也是让模型看到长尾罕见场景的唯一可行手段。 • 关键难题:物理一致性(Dynamics Gap)与传感器噪声匹配;王鹤强调“把合成链本身做成自研能力”,避免依赖商业引擎黑盒。 3. 商业模式:从“智能即产品”到“生产力即产品” • 对比大模型 SaaS:具身智能产品必须落到 能替代人力、可核算 ROI 的具体生产力指标。 • 货架拣选-补货被银河通用选为首场景:既有足够 SKU 复杂度,又在物流环节中存在巨量潜在需求。 4. 资本泡沫与行业自律 • 2023-2025 年,具身机器人公司估值飙升(Figure 高达 400 亿美元),但多数样机仍严重依赖远程操控。 • 风险:一旦不能在 5 年内实现“万台级”落地,叙事将被证伪,资本抽离会反噬行业。 • 建议:建立第三方 Benchmark + 公开 Demo 规范,减少对外“演示即能力”的信息不对称。   5. 王鹤与银河通用的定位 • 近期获 11 亿元人民币融资,估值跨过 10 亿美元独角兽门槛,印证其技术-资本双重背书。   • 核心打法:自研合成数据链 + 专用硬件,先夺取单一场景规模,再“硬件外包 / 智能内核”模式横向扩展。 ⸻ 行业与听众启示 1. 数据飞轮先于硬件飞轮:具身智能的真实壁垒在于数据闭环,而不是第一台 demo 机器人。 2. 衡量指标从“参数”转向“单位成本产出”:下一代 AI-native 企业的竞争优势是生产效率,不是模型 FLOPs。 3. 警惕故事资本化:在估值-PR “加速主义”浪潮下,创业者与投资人需共同建立可验证的技术-商业里程碑体系。 4. 跨学科人才红利:Vision / Robotics / Simulation / Manufacturing 复合背景将成为具身智能核心人才画像。 ⸻ 后续关注 • 合成数据平台化:谁会成为“Stable Diffusion for Embodied AI”? • **Robotics-as-a-Service(RaaS)**定价模型与渠道生态。 • 中美供应链差异对硬件 BOM 与迭代速度的影响。 • 法规与安全:具身智能在公共场所的伦理与责任边界。
小饼饼
1个月前 上海
7
1:23:06 亚裔女性呢?毫不关心哈哈哈哈
柚子能不放糖么Alex
1个月前 上海
7
真过瘾!王总口才太好了,像听了仨小时相声
山里灵活的狗都有人注册
1个月前 广东
6
AMAZING王总是近几期嘉宾里面学术时间长但商味儿重的(Doge
戈叶普契安勃赫斯列夫
1个月前 山西
4
配得上10年后的人类愿望清单的一定是随身携带的机器人,数量比手机,价值比汽车,产业价值是现在的房地产位置。
小木林
1个月前 北京
3
agent 是老演员了,不是 LLM 之后才有的这种架构思想。 语言当然不代表智能,只是描述世界的密码本。信息密度,维度都很低。 已经看出来主持人是被泛泛而谈的数据训练并太快收敛了,这是做访谈的弊病,一切只是“听说”。
HD658782o
1个月前 湖北
3
持续给小jun 点赞,国内第一商业ai播客
吖len
1个月前 北京
2
1:41:41 是的 文字是人创造的 是容易穷尽的 视界是大自然创造的
小逸Louie
1个月前 上海
2
2:36:06 但实际上,从结果的角度,司马懿的决策是更优的。
西瓜晒太阳
1个月前 上海
2
王老师太能讲了,难怪能融到那么多钱
Adrian_XIIo
1个月前 湖北
2
要是王兴兴跟王鹤来上一场,那会多有趣呢
Whitney
1个月前 上海
1
鹤老师表达能力是真的强
HD95431x
1个月前 美国
1
embodiedment在哲学上少说有三十来年的讨论了。。
Reallyfancy
1个月前 广东
1
05:58 很用力 都是我 首个 第一个
戈叶普契安勃赫斯列夫
1个月前 山西
1
2:22:30 小珺此处发出了对宏大叙事的冷笑声
西瓜晒太阳
1个月前 上海
1
47:08 哇靠,原来王总也是做工艺出身的啊
不愿透露姓名的热心听友
1个月前 安徽
1
银河通用今日官宣:正式完成由宁德时代领投的11亿元新一轮融资,两年累计融资超24亿元。
UltronFG
1个月前 北京
0
睡前听播客忍不住来评论一下,embodied AI是个很不错的rebranding不假,这个词也确实是最近几年才流行起来的,但说具身这个领域是来源于cv community和大概19/20才开始就有点说不过去了。robotics已经存在几十年,把深度学习用在robot上(aka robot learning)也是2015年以前就开始的(Sergey的deep visuomotor policy是2015年的paper),现在换个名字就成了全新兴起的小众领域了吗………
团团困困
1个月前 上海
0
53:52 CAFFE可难用了😂
团团困困
1个月前 上海
0
2:23:39 直指卖本体做大规模数采服务的头部
AaronZ_RprY
1个月前 浙江
0
2:38:24 非常佩服,同时也能get到很多投资人没有投的原因了…确实会有over的感觉
EurekaWang
1个月前 北京
0
1:39:05 真的是各种问题。正在前往实验室 debug 的路上,除了 demo 代码,就没有一个部分是信得过的。
黑曜BlackFloyd
1个月前 广东
0
仿真就是伪命题啊…但凡能「仿真」,那就必然已经理解物理世界,也就自然实现AGI,那我还回过头来再做机器人AGI干嘛?另外,自动驾驶领域,Nv做得好?仿真顶多能当作一部分预训练。
荣雨墨
1个月前 美国
0
本期嘉宾有点喜欢吹🐮
00_Ts1z
1个月前 上海
0
1:38:18 某树科技
AaronZ_RprY
1个月前 浙江
0
1:12:10 全是干货,还是创业者的访谈有内容呀,非常棒
YihangWang
1个月前 广东
0
坐等和广秘的二季度AI漫谈!
TonyGuGu
1个月前 上海
0
说实话 上来几个重点(坐老黄旁边) 就代表现在是大泡沫
moonwalker_c
1个月前 北京
0
太牛逼了…33岁,十亿美金估值😅 人比人,真比不了,彻底躺平
大风歌大棚菜
1个月前 湖南
0
谢谢。
小林钰子
1个月前 北京
0
13:48 机器人是很多东西的整合,Stanford没有机器人系,但很多领域都有做机器人的,或许就像没有“手机系”一样,曾经的机器人很偏重场景应用,没有自己的科学问题,与产业界走得比较紧密的老师会做这方面的
Mars98563
1个月前 湖南
0
谢谢。
白灼芥兰
1个月前 四川
0
1:01:54 做动画的很少会说不实用这种话吧,艺术都是不“实用”的
抱冰擎火
1个月前 河南
0
第一个😁
抱冰擎火
1个月前 河南
0
52:28 读过博的才知道有多难,开山弟子
大大大大大火药桶
1个月前 上海
0
04:04 哈哈哈哈好喜欢这个快问快答环节~真的是一手高密度信息~
柚子能不放糖么Alex
1个月前 上海
0
01:37 标准敬酒环节
山里灵活的狗都有人注册
1个月前 广东
0
52:57 哈哈哈哈哈哈意想不到的组合
山里灵活的狗都有人注册
1个月前 广东
0
2:28:07 笑发财,典中典“佬但亲和”
不二法棍
1个月前 北京
0
22:32 语言是智能的加速器。
史地文
1个月前 北京
0
2:28:13 北京人的骄傲
Hahuhahu
1个月前 浙江
0
亚裔男..
小lian
1个月前 广东
0
Amazing
周青
1个月前 中国香港
0
亚裔女性呢
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧