时长:
126分钟
播放:
1.58万
发布:
5天前
主播...
简介...
今天的嘉宾是Google DeepMind机器人团队的高级研究科学家兼技术负责人谭捷,他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。
中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。
本期节目中,谭捷将带我们一窥硅谷视角,尤其是Google DeepMind视角下的机器人前沿叙事。
前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(Gemini Robotics 1.5将AI Agents带入物理世界),我们也聊了聊他们的最新发现。
由于嘉宾工作环境的原因,会出现一定程度的中英夹杂,还大家多多包容和支持。
02:00 机器人是在真实世界里做图形学,图形学是在simulation里做机器人
嘉宾小传:小时候喜欢打游戏,读博士读的计算机图形学
从图形学转型机器人的变轨
我在Google的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》(从仿真到现实:学习四足机器人敏捷运动),开创了强化学习和seem to real在足式机器人上的应用
Paradigm Shift,过去十年第一个是强化学习,第二个是大语言模型
大语言模型对机器人的影响(大语言模型类似大脑,强化学习类似小脑)
13:06 机器人基座大模型到底是不是一个非常独立的学科?So far, not yet
今天的机器人发展到什么阶段了?
从demo到真正落地,隔十年并不是一个非常夸张的事
从我的角度来说,我不得不承认,最近几年的机器人智能发展主要还是依赖于多模态大模型
但多模态模型缺什么呢?缺少robot action的输出
当你真正有一个generalist model(通用模型)的时候,specialized model(专有模型)就完全不能与之竞争
23:44 Robotics最大问题是数据,它在一个非常复杂的unstructured environment里,可以发生任何事情
最大的问题还是数据问题
但是robotics是在一个非常复杂的unstructured environment(非结构化环境)里,可以发生任何事情
它需要极大量的、非常diverse(多元)的数据,但这些数据现在是不存在的
现在有很多startup叫data factory(数据工厂)
所谓“数据金字塔”包括哪些?
27:52 Gemini Robotics 1.5:我们有一个方法叫motion transfer,这是独门秘诀
Gemini Robotics 1.5最重要的发现是什么?
第一个是我们把“thinking”加入了VLA模型
第二个非常重要的突破是cross-embodiment transfer(跨具身迁移)
Gemini Robotics 1.5的工作中,我们做了一个快慢模型的划分
它应该是个过渡的方式,因为现在受制于算力的限制、模型大小的限制
当你要一个unify model(统一模型)的时候,它必须非常大
Motion Transfer?It’s very secret
47:32 生成极大量仿真数据,是弥补它缺点的一个重要手段
我们比较重视的一点还是数据、数据、数据
遥操作是非常难以获取的数据
我们会花更多的精力,比如利用simulation数据,利用human video(人类视频),利用YouTube上的一些数据,甚至利用模型生成的数据,比如VEO生成的一些数据
真实数据没有sim-to-real gap(仿真到现实差距),但是泛化性是由数据的coverage(覆盖)导致的,并不是因为它本身是真实数据还是虚拟数据
在不远的将来,传统物理模拟仿真会慢慢地被生成式模型的仿真所取代
我信仰的是scalable data
01:03:48 世界模型就是Vision-Language-Vision,vision和language in,生成下一帧的图像
世界模型的定义是:如果给上前一帧,再给上机器人的动作,你可以预测下一帧
从另外一个角度,VEO它是一个视频生成模型,但是Genie它更像一个世界模型
当你在每一帧的时候,可以有一个输入来改变你的下一帧,那个感觉就是世界模型;但是如果它是一个已经生成好的、几秒钟的静态视频,那就不是
世界模型其实就是Vision-Language-Vision,vision和language in,它可以生成下一帧的图像
01:08:29 如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件
如果你有灵巧手,触觉就非常重要
之所以我前面觉得触觉不重要,是因为它其实受限于当时的硬件
现在还在夹爪时代
在所有夹爪能完成的任务里,我还是觉得视觉可能可以解决95%的问题
在未来,人形机器人不会成为唯一的形态,但一定是个主流的形态
如果你的目标是solve AGI in the physical world(在物理世界实现AGI),那么我会非常聚焦于最终的形态是什么样子,其他的东西可能都是distraction(干扰)
01:17:35 一个有使命感的人,他不会容忍说“I’m on a wrong ship”
这几年Google AI或者robotics的研究文化上有没有发生过变化?
不管是从promotion、performance review、incentive,还是各种各样的structure上,Google想创造一个环境,使得更多的人可以一起解决更大的事情
像Gemini Robotics,它更多是自上而下
我发觉好像国内不一定比我卷,我一周可能工作70到80个小时
真的,这个时代真的是等不起,不然别人都做出来了
AI有很多是数学,华人数学比较好
《106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象》
《109. 机器人遭遇数据荒?与谢晨聊:仿真与合成数据、Meta天价收购和Alexandr Wang》
【更多信息】
本集的文字版本已发布,请搜索我们工作室的官方公众号:
语言即世界language is world
中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。
本期节目中,谭捷将带我们一窥硅谷视角,尤其是Google DeepMind视角下的机器人前沿叙事。
前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(Gemini Robotics 1.5将AI Agents带入物理世界),我们也聊了聊他们的最新发现。
由于嘉宾工作环境的原因,会出现一定程度的中英夹杂,还大家多多包容和支持。
02:00 机器人是在真实世界里做图形学,图形学是在simulation里做机器人
嘉宾小传:小时候喜欢打游戏,读博士读的计算机图形学
从图形学转型机器人的变轨
我在Google的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》(从仿真到现实:学习四足机器人敏捷运动),开创了强化学习和seem to real在足式机器人上的应用
Paradigm Shift,过去十年第一个是强化学习,第二个是大语言模型
大语言模型对机器人的影响(大语言模型类似大脑,强化学习类似小脑)
13:06 机器人基座大模型到底是不是一个非常独立的学科?So far, not yet
今天的机器人发展到什么阶段了?
从demo到真正落地,隔十年并不是一个非常夸张的事
从我的角度来说,我不得不承认,最近几年的机器人智能发展主要还是依赖于多模态大模型
但多模态模型缺什么呢?缺少robot action的输出
当你真正有一个generalist model(通用模型)的时候,specialized model(专有模型)就完全不能与之竞争
23:44 Robotics最大问题是数据,它在一个非常复杂的unstructured environment里,可以发生任何事情
最大的问题还是数据问题
但是robotics是在一个非常复杂的unstructured environment(非结构化环境)里,可以发生任何事情
它需要极大量的、非常diverse(多元)的数据,但这些数据现在是不存在的
现在有很多startup叫data factory(数据工厂)
所谓“数据金字塔”包括哪些?
27:52 Gemini Robotics 1.5:我们有一个方法叫motion transfer,这是独门秘诀
Gemini Robotics 1.5最重要的发现是什么?
第一个是我们把“thinking”加入了VLA模型
第二个非常重要的突破是cross-embodiment transfer(跨具身迁移)
Gemini Robotics 1.5的工作中,我们做了一个快慢模型的划分
它应该是个过渡的方式,因为现在受制于算力的限制、模型大小的限制
当你要一个unify model(统一模型)的时候,它必须非常大
Motion Transfer?It’s very secret
47:32 生成极大量仿真数据,是弥补它缺点的一个重要手段
我们比较重视的一点还是数据、数据、数据
遥操作是非常难以获取的数据
我们会花更多的精力,比如利用simulation数据,利用human video(人类视频),利用YouTube上的一些数据,甚至利用模型生成的数据,比如VEO生成的一些数据
真实数据没有sim-to-real gap(仿真到现实差距),但是泛化性是由数据的coverage(覆盖)导致的,并不是因为它本身是真实数据还是虚拟数据
在不远的将来,传统物理模拟仿真会慢慢地被生成式模型的仿真所取代
我信仰的是scalable data
01:03:48 世界模型就是Vision-Language-Vision,vision和language in,生成下一帧的图像
世界模型的定义是:如果给上前一帧,再给上机器人的动作,你可以预测下一帧
从另外一个角度,VEO它是一个视频生成模型,但是Genie它更像一个世界模型
当你在每一帧的时候,可以有一个输入来改变你的下一帧,那个感觉就是世界模型;但是如果它是一个已经生成好的、几秒钟的静态视频,那就不是
世界模型其实就是Vision-Language-Vision,vision和language in,它可以生成下一帧的图像
01:08:29 如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件
如果你有灵巧手,触觉就非常重要
之所以我前面觉得触觉不重要,是因为它其实受限于当时的硬件
现在还在夹爪时代
在所有夹爪能完成的任务里,我还是觉得视觉可能可以解决95%的问题
在未来,人形机器人不会成为唯一的形态,但一定是个主流的形态
如果你的目标是solve AGI in the physical world(在物理世界实现AGI),那么我会非常聚焦于最终的形态是什么样子,其他的东西可能都是distraction(干扰)
01:17:35 一个有使命感的人,他不会容忍说“I’m on a wrong ship”
这几年Google AI或者robotics的研究文化上有没有发生过变化?
不管是从promotion、performance review、incentive,还是各种各样的structure上,Google想创造一个环境,使得更多的人可以一起解决更大的事情
像Gemini Robotics,它更多是自上而下
我发觉好像国内不一定比我卷,我一周可能工作70到80个小时
真的,这个时代真的是等不起,不然别人都做出来了
AI有很多是数学,华人数学比较好
《106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象》
《109. 机器人遭遇数据荒?与谢晨聊:仿真与合成数据、Meta天价收购和Alexandr Wang》
【更多信息】
本集的文字版本已发布,请搜索我们工作室的官方公众号:
语言即世界language is world
评价...
空空如也
小宇宙热门评论...
YihangWang
5天前
广东
10
害,酷家乐还在,而且是杭州六小龙了
YihangWang
5天前
广东
10
害,酷家乐还在,而且是杭州六小龙了
AI-Nate
4天前
美国
8
44:33 如果有人想更多了解Motion Transfer
Website: motiontrans.github.io
Paper: arxiv.org/abs/2509.17759
Jee-Jee
5天前
四川
7
非常精彩,受益匪浅👍
Jee-Jee
5天前
四川
7
非常精彩,受益匪浅👍
AI-Nate
4天前
美国
7
44:33 如果有人想更多了解Motion Transfer
Website: motiontrans.github.io
Paper: arxiv.org/abs/2509.17759
树杨
4天前
上海
5
1:32:39 谷歌都工作 70 到 80 个小时,感觉我们太不努力了😮💨
树杨
4天前
上海
5
1:32:39 谷歌都工作 70 到 80 个小时,感觉我们太不努力了😮💨
山里灵活的狗都有人注册
5天前
浙江
4
笑死,喜欢牛马可还行
山里灵活的狗都有人注册
5天前
浙江
4
笑死,喜欢牛马可还行
小逸Louie
5天前
上海
3
1:43:31 记录访谈中的的一段问答,“问:如果机器人拥有了智力,那么是机器还是人呢?答:那人工智能是,人工还是智能?这个可能不是特别重要。”
从访谈中也获悉,不只是AI团队,机器人团队目前华人的比例很高。如果继续推导,从国家的选择上来说,人才似乎只有2个选择了。
作为一名土生土长的上海人,欢迎谭捷先生常回中国,常回上海看看~
疾走劳拉
3天前
广东
3
嘉宾的逻辑和表达都非常清晰👍
小逸Louie
5天前
上海
3
1:43:31 记录访谈中的的一段问答,“问:如果机器人拥有了智力,那么是机器还是人呢?答:那人工智能是,人工还是智能?这个可能不是特别重要。”
从访谈中也获悉,不只是AI团队,机器人团队目前华人的比例很高。如果继续推导,从国家的选择上来说,人才似乎只有2个选择了。
作为一名土生土长的上海人,欢迎谭捷先生常回中国,常回上海看看~
疾走劳拉
3天前
广东
3
嘉宾的逻辑和表达都非常清晰👍
AI-Nate
4天前
美国
1
42:51 我觉得这里的reward function可以用一个多模态模型来代替。直接让模型判断图片是否任务完成。可以试试。
Lagnar
2天前
上海
1
感觉不止是他乃至几家巨头,完全不在乎自己做成超智能之后的世界会是怎样,单纯就是想造出来,从人类的贪婪和好胜欲中成长起来。
涵_9sBL
1天前
上海
1
本期的嘉宾不会局限于一个技术大神的定位,表达清晰易懂,不会用太多过于专业的词汇,好适合做播客
天际放猪
3天前
广东
1
最后两本书叫啥
AI-Nate
4天前
美国
1
42:51 我觉得这里的reward function可以用一个多模态模型来代替。直接让模型判断图片是否任务完成。可以试试。
Lagnar
2天前
上海
1
感觉不止是他乃至几家巨头,完全不在乎自己做成超智能之后的世界会是怎样,单纯就是想造出来,从人类的贪婪和好胜欲中成长起来。
涵_9sBL
1天前
上海
1
本期的嘉宾不会局限于一个技术大神的定位,表达清晰易懂,不会用太多过于专业的词汇,好适合做播客
温血良民
2天前
江苏
0
大语言模型是机器人的大脑,这么一说,理想的想象力可能会大很多了
张华_HzQj
2天前
北京
0
机器人行业目前最缺的还是数据,这个确实是一个很大的问题
loop_emKu
2天前
广东
0
1:48:52 现在的人型机器人硬件还没有实际用处
HD214034l
1天前
浙江
0
帮!
HD963717x
1天前
河南
0
这期的嘉宾好厉害,表达清晰,思路严谨。
lily_luxury
1天前
广东
0
我有一个问题,真的能够每周都能高能量的工作70-80个小时吗?我感觉我大脑一天集中精力连续工作四个小时左右需要休息,连续工作十二个小时之后脑子会有一种急需休息的感觉。啊,可能脑子不够好使吧
dli1988
1天前
北京
0
只要aloha机械臂有用 从书架上拿书 的数据训练过,他就能实现,数据问题而已
dli1988
1天前
北京
0
实话实说听了最近两期的嘉宾,虽然他们很厉害,但其实很多深入问题他们讲的不太靠谱
温血良民
22小时前
江苏
0
1:14:42 这一期的嘉宾讲的这么好,但是评论区的评论竟然很少,确实蛮奇怪的。
哈罗斯
3天前
美国
0
听完,感觉robotics和Waymo是不是将来要合并成一个team了
温血良民
2天前
江苏
0
大语言模型是机器人的大脑,这么一说,理想的想象力可能会大很多了
张华_HzQj
2天前
北京
0
机器人行业目前最缺的还是数据,这个确实是一个很大的问题
loop_emKu
2天前
广东
0
1:48:52 现在的人型机器人硬件还没有实际用处
HD214034l
1天前
浙江
0
帮!
HD963717x
1天前
河南
0
这期的嘉宾好厉害,表达清晰,思路严谨。
lily_luxury
1天前
广东
0
我有一个问题,真的能够每周都能高能量的工作70-80个小时吗?我感觉我大脑一天集中精力连续工作四个小时左右需要休息,连续工作十二个小时之后脑子会有一种急需休息的感觉。啊,可能脑子不够好使吧
dli1988
1天前
北京
0
只要aloha机械臂有用 从书架上拿书 的数据训练过,他就能实现,数据问题而已
dli1988
1天前
北京
0
实话实说听了最近两期的嘉宾,虽然他们很厉害,但其实很多深入问题他们讲的不太靠谱
天际放猪
3天前
广东
0
最后两本书叫啥