主播
节目简介
来源:小宇宙
"只有第一名才有意义",这句残酷的话,在“to春晚”这个赛道,再一次被无情的证实,“第二名只能说明你是头号输家”。
难道我们在小视频里看到的机器人在家里把起床后的被子铺平整、清理桌面的垃圾到垃圾筐、并把桌面的物品摆放整齐,等等,这些视频是假的、是AI做的?当然不是。那是人在旁边拿着遥控器遥控机器人做的?也不是。那是编好了的程序实现的、而不是机器人自主实现的?还不是。那这些做家务的视频到底是如何实现的?我们到底要等到什么时候才能让机器人不仅仅是to春晚,而是能to家庭?
02:08 我找不到比"to春晚“更简练更准确的描述这一行为的词汇了,只好自己发明了一个,这是即to C, to B, to VC之后的,另一个营销方面的创新。
03:57 机器人比自动驾驶要复杂不知道多少倍,首先。。
06:27 今天机器人面临的最大的挑战,不是让AI学会思考,而是让AI学会物理世界本身。
06:45 过去两三年才出现的人形机器人行业,到底是怎么训练机器人的?
07:17 最主流的一种训练数据的采集方式叫做“遥操作”。
07:24 “摇操作”和很多人想象的打游戏似的,拿着遥控器操控,其实不一样。
09:25 这里真正重要的其实不是“输出的动作”本身,而是“视觉里看到了什么、和输出什么样的动作”之间的对应关系。
10:17 听起来像是机器人有智能了,但其实还不是
10:24 这样训练出来的机器人,充其量是一个刷题刷出来的牛娃儿。
10:43 为了通过VLA的方式来实现“刷题智能”,过去几年,整个机器人行业都在做,疯狂的做一件事儿
11:26 很快,整个行业就会发现一件事儿,遥操作获取数据这条路,可能从根本上是无法规模化扩张的。
12:14 Jim Fan 提出了他的新观点,VLA方式的技术路线已经过时了,取而代之的新范式叫做“世界动作模型”
12:34 模型的目标也要变了,训练的逻辑也要变了,整个商业的权力结构也自然的会跟着变了。
14:10 世界动作模型本质上是什么呢?
15:08 VRA更像是条件反射,而世界动作模型更像是先做心理模拟、再行动,这其实更接近于人类。
15:55 这样的一个训练范式转变之外,Jim Fan 还提到了在世界动作模型这个新的架构之下的数据革命。
17:44 这次英伟达Jim Fan 昨晚提到的世界动作模型,和之前英伟达的和业界总说的世界模型是一回事吗?
20:08 但不管怎样,人类已经走在了一条未来会让自己都震惊的路上。
难道我们在小视频里看到的机器人在家里把起床后的被子铺平整、清理桌面的垃圾到垃圾筐、并把桌面的物品摆放整齐,等等,这些视频是假的、是AI做的?当然不是。那是人在旁边拿着遥控器遥控机器人做的?也不是。那是编好了的程序实现的、而不是机器人自主实现的?还不是。那这些做家务的视频到底是如何实现的?我们到底要等到什么时候才能让机器人不仅仅是to春晚,而是能to家庭?
02:08 我找不到比"to春晚“更简练更准确的描述这一行为的词汇了,只好自己发明了一个,这是即to C, to B, to VC之后的,另一个营销方面的创新。
03:57 机器人比自动驾驶要复杂不知道多少倍,首先。。
06:27 今天机器人面临的最大的挑战,不是让AI学会思考,而是让AI学会物理世界本身。
06:45 过去两三年才出现的人形机器人行业,到底是怎么训练机器人的?
07:17 最主流的一种训练数据的采集方式叫做“遥操作”。
07:24 “摇操作”和很多人想象的打游戏似的,拿着遥控器操控,其实不一样。
09:25 这里真正重要的其实不是“输出的动作”本身,而是“视觉里看到了什么、和输出什么样的动作”之间的对应关系。
10:17 听起来像是机器人有智能了,但其实还不是
10:24 这样训练出来的机器人,充其量是一个刷题刷出来的牛娃儿。
10:43 为了通过VLA的方式来实现“刷题智能”,过去几年,整个机器人行业都在做,疯狂的做一件事儿
11:26 很快,整个行业就会发现一件事儿,遥操作获取数据这条路,可能从根本上是无法规模化扩张的。
12:14 Jim Fan 提出了他的新观点,VLA方式的技术路线已经过时了,取而代之的新范式叫做“世界动作模型”
12:34 模型的目标也要变了,训练的逻辑也要变了,整个商业的权力结构也自然的会跟着变了。
14:10 世界动作模型本质上是什么呢?
15:08 VRA更像是条件反射,而世界动作模型更像是先做心理模拟、再行动,这其实更接近于人类。
15:55 这样的一个训练范式转变之外,Jim Fan 还提到了在世界动作模型这个新的架构之下的数据革命。
17:44 这次英伟达Jim Fan 昨晚提到的世界动作模型,和之前英伟达的和业界总说的世界模型是一回事吗?
20:08 但不管怎样,人类已经走在了一条未来会让自己都震惊的路上。