主播
节目简介
来源:小宇宙
🎙️ 【本期简介】
开年以来,千寻智能(SpiritAI)已接连完成两轮融资,总额近 30 亿。
具身智能正在快速成为资本与市场的共识。
当新的热点与叙事不断涌现,高阳的关注点却不在外部变化,而始终落在内部同一命题上:如果要实现具身智能的通用基础模型,下一步面临的问题会是什么?如何把问题真正解决?
北坡计划第一期,我们邀请了千寻智能联合创始人、清华大学助理教授高阳,围绕具身智能即将进入的“GPT-3 时刻”展开讨论。从数据、模型到系统能力,拆解这一判断背后的技术前提与未来展望;我们也把问题拉回个体,高阳是我们所有受邀嘉宾中,语速最慢的。他说:人不过是会思考的芦苇,不疾不徐,不试图成为某种“标准答案”,而是在外部价值选择与个体快乐之间不断回到自身,坚持内在节奏,展开属于自己的生命力。
👤 【嘉宾介绍】
高阳:千寻智能联合创始人兼首席科学家,清华大学交叉信息研究院助理教授。
本硕毕业于清华大学,博士毕业于加州大学伯克利分校(UC Berkeley)。他是全球具身智能与视觉-语言-动作模型(VLA)领域的顶尖青年学者。
🕒 【精选时间戳】
04:34 24 年初谈具身大模型,连学生都不信
07:15 ChatGPT 出来那一刻,他在伯克利的 AI 价值观被重塑了
08:37 既然大语言这条路走通了,具身智能为什么不行?
13:11 两年前预测要 5–8 年,现在的判断提前到了 27 年
17:52 一千万小时的数据,6000 个人,几个月。这件事中国有经验
29:42 评价一个具身模型,今天最重要的指标只有一个:泛化性
32:48 同门师兄弟 Sergey 和他,技术路径上的一致与分歧
39:26 未来的机器人是一个"多频谱"系统
48:36 如果有长生不老药,还会做一辈子机器人吗?
01:06:31 给科学家创业者:什么是信号,什么是噪声?
01:08:34 老子的"俭"不是节俭,是不耗散
01:11:32 ”价值还是快乐?我选择快乐“
📚 【相关提及】(这次有点多,但都很有价值)
关于技术:
* Scaling Law:缩放定律(OpenAI 于 2019 年提出)。指模型性能会随计算量和数据的增加而规律性提升,具身智能正在探索其在物理数据上的边界。
* VLA (Vision-Language-Action):视觉-语言-动作模型。一种端到端的具身智能架构,能让机器人“看懂”环境、“听懂”指令并直接输出物理动作。
* World Model:世界模型。能够理解并预测物理世界下一个状态的 AI 模型,未来有望在仿真环境中生成海量机器人训练数据。
* 遥操:远程操作(Teleoperation)。指人类通过设备远程控制机器人完成动作,当前市面上部分看似智能的机器人演示实则依赖此技术。
* Locomotion:运动控制。机器人的底层移动与平衡能力,控制频率极高,类似于生物的本能反射。
* Transformer:目前大模型通用的底层架构 。它像是一个高度灵敏的“注意力转换器”,能够捕捉数据序列中跨度极大的关联信息,是 ChatGPT 和具身智能大脑的共同基石 。
* 端到端 (End-to-End):一种“直达”的技术方案。指模型直接从原始输入(如摄像头画面)输出到最终结果(如机械臂动作),中间不经过人为设定的繁琐规则,让机器自己学习其中的映射规律。
* 泛化性 (Generalization):衡量具身智能含金量的核心指标。指 AI 在面对从没见过的环境或任务时,依然能表现出正确判断的能力,而不是只能机械地重复在实验室里练好的动作。
* Universal Function Approximator:通用函数拟合器。神经网络的基础数学理论,指拥有隐层的神经网络可以拟合世界上任何连续函数。
* CRISPR :基因编辑技术。节目中借此畅想未来人类可能通过修改基因大幅延长寿命的极端科幻场景。
* PR2 (PR two):一款经典的双臂科研机器人,是早期学者进行机器人抓取与控制实验的重要平台。
关于公司:
* Generalist:全球具身智能前沿的初创公司,在真实物理世界的数据收集量上处于行业领先地位。4月2日最新发布的Demo,已宣称拥有 50w 小时数据。
* Physical Intelligence (PI):美国顶尖的具身智能初创公司,强调具身智能模型“通用性”。
* World Labs:由李飞飞创立的 AI 初创公司,正转型投入具身智能与“空间智能”的研发。
* AMI Labs:Yann LeCun 创办,致力于探索更具通用性的人工智能架构。
关于人:
* Sergey Levine:加州大学伯克利分校教授、Physical Intelligence 联合创始人,被高阳形容为机器人领域的“活体维基百科”。
* Peter Thiel:彼得·蒂尔。硅谷著名投资人、PayPal联合创始人,也是著名的《从零到一》作者。
* Jitendra Malik:加州大学伯克利分校计算机视觉泰斗。他关于“动物为什么需要视觉”的进化论视角,启发了高阳转向机器人领域的研究。
* 吴翼:清华大学交叉信息研究院的杰出青年学者,蚂蚁集团强化学习实验室首席科学家,负责大模型强化学习方向研究。
* 许华哲:清华大学交叉信息研究院助理教授,高阳在伯克利实验室时期的学术同门。研究聚焦具身人工智能的理论、算法与应用,深度强化学习与机器人学等。
* 李飞飞:斯坦福大学教授,计算机视觉领域的先驱,ImageNet 发起者,World Labs 创始人。
* LeCun:杨立昆(Yann LeCun),深度学习三巨头之一,图灵奖得主。
关于理念:
* 会思考的芦苇:源自法国哲学家帕斯卡尔的隐喻。指人类在肉体上像芦苇一样脆弱,但因为拥有独立的偏好与思考能力,从而具备了不可替代的特殊价值。
* 老子的“三宝”:出自《道德经》的“一曰慈,二曰俭,三曰不敢为天下先”。节目中特指“俭”,意为不耗散自己的心力与欲望。
🎵 【音乐】
Jordan Critz - Beau Et Rapide (Piano)
🎤 【创作团队】
主持|张津剑
出品|绿洲资本
剪辑制作|声度 Studio 播客工作室
💬 【互动时刻】
小助理微信:VB20240606
如果在你面前有两个选择:一件是世俗意义上具有巨大“价值”但让你痛苦的事,另一件是让你发自内心“快乐”但看似无用的事,你会怎么选?欢迎留言评论!
我们将为评论区最高点赞的 3 位听友,赠送高阳播客结尾所说的绿洲小书一本。
免责声明
本播客所述投资相关内容皆以交流分享为目的,仅供参考,不构成任何市场预测、判断,或投资、咨询建议。感谢您对原创内容的青睐!如转载或引用本播客所述内容,请注明出处。转载前请与绿洲联系并取得同意。
开年以来,千寻智能(SpiritAI)已接连完成两轮融资,总额近 30 亿。
具身智能正在快速成为资本与市场的共识。
当新的热点与叙事不断涌现,高阳的关注点却不在外部变化,而始终落在内部同一命题上:如果要实现具身智能的通用基础模型,下一步面临的问题会是什么?如何把问题真正解决?
北坡计划第一期,我们邀请了千寻智能联合创始人、清华大学助理教授高阳,围绕具身智能即将进入的“GPT-3 时刻”展开讨论。从数据、模型到系统能力,拆解这一判断背后的技术前提与未来展望;我们也把问题拉回个体,高阳是我们所有受邀嘉宾中,语速最慢的。他说:人不过是会思考的芦苇,不疾不徐,不试图成为某种“标准答案”,而是在外部价值选择与个体快乐之间不断回到自身,坚持内在节奏,展开属于自己的生命力。
👤 【嘉宾介绍】
高阳:千寻智能联合创始人兼首席科学家,清华大学交叉信息研究院助理教授。
本硕毕业于清华大学,博士毕业于加州大学伯克利分校(UC Berkeley)。他是全球具身智能与视觉-语言-动作模型(VLA)领域的顶尖青年学者。
🕒 【精选时间戳】
04:34 24 年初谈具身大模型,连学生都不信
07:15 ChatGPT 出来那一刻,他在伯克利的 AI 价值观被重塑了
08:37 既然大语言这条路走通了,具身智能为什么不行?
13:11 两年前预测要 5–8 年,现在的判断提前到了 27 年
17:52 一千万小时的数据,6000 个人,几个月。这件事中国有经验
29:42 评价一个具身模型,今天最重要的指标只有一个:泛化性
32:48 同门师兄弟 Sergey 和他,技术路径上的一致与分歧
39:26 未来的机器人是一个"多频谱"系统
48:36 如果有长生不老药,还会做一辈子机器人吗?
01:06:31 给科学家创业者:什么是信号,什么是噪声?
01:08:34 老子的"俭"不是节俭,是不耗散
01:11:32 ”价值还是快乐?我选择快乐“
📚 【相关提及】(这次有点多,但都很有价值)
关于技术:
* Scaling Law:缩放定律(OpenAI 于 2019 年提出)。指模型性能会随计算量和数据的增加而规律性提升,具身智能正在探索其在物理数据上的边界。
* VLA (Vision-Language-Action):视觉-语言-动作模型。一种端到端的具身智能架构,能让机器人“看懂”环境、“听懂”指令并直接输出物理动作。
* World Model:世界模型。能够理解并预测物理世界下一个状态的 AI 模型,未来有望在仿真环境中生成海量机器人训练数据。
* 遥操:远程操作(Teleoperation)。指人类通过设备远程控制机器人完成动作,当前市面上部分看似智能的机器人演示实则依赖此技术。
* Locomotion:运动控制。机器人的底层移动与平衡能力,控制频率极高,类似于生物的本能反射。
* Transformer:目前大模型通用的底层架构 。它像是一个高度灵敏的“注意力转换器”,能够捕捉数据序列中跨度极大的关联信息,是 ChatGPT 和具身智能大脑的共同基石 。
* 端到端 (End-to-End):一种“直达”的技术方案。指模型直接从原始输入(如摄像头画面)输出到最终结果(如机械臂动作),中间不经过人为设定的繁琐规则,让机器自己学习其中的映射规律。
* 泛化性 (Generalization):衡量具身智能含金量的核心指标。指 AI 在面对从没见过的环境或任务时,依然能表现出正确判断的能力,而不是只能机械地重复在实验室里练好的动作。
* Universal Function Approximator:通用函数拟合器。神经网络的基础数学理论,指拥有隐层的神经网络可以拟合世界上任何连续函数。
* CRISPR :基因编辑技术。节目中借此畅想未来人类可能通过修改基因大幅延长寿命的极端科幻场景。
* PR2 (PR two):一款经典的双臂科研机器人,是早期学者进行机器人抓取与控制实验的重要平台。
关于公司:
* Generalist:全球具身智能前沿的初创公司,在真实物理世界的数据收集量上处于行业领先地位。4月2日最新发布的Demo,已宣称拥有 50w 小时数据。
* Physical Intelligence (PI):美国顶尖的具身智能初创公司,强调具身智能模型“通用性”。
* World Labs:由李飞飞创立的 AI 初创公司,正转型投入具身智能与“空间智能”的研发。
* AMI Labs:Yann LeCun 创办,致力于探索更具通用性的人工智能架构。
关于人:
* Sergey Levine:加州大学伯克利分校教授、Physical Intelligence 联合创始人,被高阳形容为机器人领域的“活体维基百科”。
* Peter Thiel:彼得·蒂尔。硅谷著名投资人、PayPal联合创始人,也是著名的《从零到一》作者。
* Jitendra Malik:加州大学伯克利分校计算机视觉泰斗。他关于“动物为什么需要视觉”的进化论视角,启发了高阳转向机器人领域的研究。
* 吴翼:清华大学交叉信息研究院的杰出青年学者,蚂蚁集团强化学习实验室首席科学家,负责大模型强化学习方向研究。
* 许华哲:清华大学交叉信息研究院助理教授,高阳在伯克利实验室时期的学术同门。研究聚焦具身人工智能的理论、算法与应用,深度强化学习与机器人学等。
* 李飞飞:斯坦福大学教授,计算机视觉领域的先驱,ImageNet 发起者,World Labs 创始人。
* LeCun:杨立昆(Yann LeCun),深度学习三巨头之一,图灵奖得主。
关于理念:
* 会思考的芦苇:源自法国哲学家帕斯卡尔的隐喻。指人类在肉体上像芦苇一样脆弱,但因为拥有独立的偏好与思考能力,从而具备了不可替代的特殊价值。
* 老子的“三宝”:出自《道德经》的“一曰慈,二曰俭,三曰不敢为天下先”。节目中特指“俭”,意为不耗散自己的心力与欲望。
🎵 【音乐】
Jordan Critz - Beau Et Rapide (Piano)
🎤 【创作团队】
主持|张津剑
出品|绿洲资本
剪辑制作|声度 Studio 播客工作室
💬 【互动时刻】
小助理微信:VB20240606
如果在你面前有两个选择:一件是世俗意义上具有巨大“价值”但让你痛苦的事,另一件是让你发自内心“快乐”但看似无用的事,你会怎么选?欢迎留言评论!
我们将为评论区最高点赞的 3 位听友,赠送高阳播客结尾所说的绿洲小书一本。
免责声明
本播客所述投资相关内容皆以交流分享为目的,仅供参考,不构成任何市场预测、判断,或投资、咨询建议。感谢您对原创内容的青睐!如转载或引用本播客所述内容,请注明出处。转载前请与绿洲联系并取得同意。
小宇宙热评
狂野时代的小熊
2周前
浙江
8
我选择快乐且看似无用,因为也只是看似无用。始终坚持做让自己感到快乐的事情,终有一天他会从“无用”变成世俗意义上的“有用”,因为本来“无用”和“有用”的认知从社会和个人纬度来说也是千人千面。所以,坚持做自己认为快乐的事情,也可能间断性会感到痛苦,但因为预测到它的“未来有用”以及“长期快乐”,所以会努力继续坚持。总而言之,做自己快乐的事情,才能够长期主义,才有可能能创造出更大的难但正确的事情!
贴贴我的猫
2周前
广东
8
为什么世俗意义上面有价值,但自己却会觉得痛苦,而看似没有价值,自己会觉得快乐?其实这个答案已经很明显了,前者大概率是因为那是别人认可的价值,但自己并不认可,而后者是自己认可有价值,但或许社会和外界不认可。所以这个问题的答案取决于我们想要成为自己认可的人,还是成为别人认可的人。那我觉得 人活一世,我还是选择前者。
小猪在路上呢
2周前
北京
7
05:24 每次听高阳讲话都娓娓道来 很舒适 通用具身大脑终将到来 即使还需要等3年、5年甚至10年
单鼎-声度Studio
2周前
上海
5
57:44 整期节目其实在反复讲一件事:真正重要的东西往往不在最热闹的地方。无论是技术路径,还是人生选择,都需要一种“在不确定中长期相信”的能力。这一点,对创业者来说太关键了。
汪好看
2周前
印度
5
1:10:00 将军赶路,不追小兔
Jackyoong
2周前
上海
3
最打动我的是后面聊“人也是机器”那一段。听起来有点反直觉,但越想越觉得温柔:正因为是“机器”,所以每一个有意识、有偏好、有感受的瞬间才显得特别珍贵。
冰戟
2周前
四川
3
那段关于“学生开始动摇去创业”的故事特别真实。有点唏嘘——不是他们变了,而是环境的信号太强了。听完会反问自己:我现在做的选择,是信号,还是被噪声推着走?
HD769013z
2周前
广东
2
睡前惊喜🥰明早听
林杉_uf03
2周前
河北
2
内心丰盈者,独行也如众。
本真一点
2周前
北京
2
听完颇有感触,基于本真的成长和选择总是让人快乐,无论外界的声音和反馈是什么,选择让自己快乐的方向,可能才是更重要的。外界的变化我们很难控制,而我们自己真正坚持的是什么,呈现什么,才是作为人的本质-可能性的绽放。
300wdc
2周前
北京
2
很喜欢聊“数据”的那一段。以前总觉得AI是很抽象的东西,但这里讲到“一个厨师做四道菜就是一小时数据”,一下子就落地了。原来所谓智能,背后是这么具体、甚至有点笨拙的积累。
Shirley_mzeK
2周前
上海
2
大佬们都好接地气 好真实
Aveline-flow
2周前
上海
2
38:28 最终是一个模型,这个推理真的是非常超前了,人类仿照自身设计机器,所有感官维度都覆盖的情况下,很难想象机器人会变成什么样
独木桥_AU9f
2周前
江苏
1
谢谢
Aveline-flow
2周前
上海
1
以及是真的没想到,高老师还能引用帕斯卡尔的哲学名言😂不是说好了语文不好吗
刑法教义学
2周前
上海
0
毫无疑问选择2
Shirley_mzeK
2周前
上海
0
先于市场发现并相信信号,然后bet on it,风投的魅力无穷
ShuqingDuanC
2周前
中国香港
0
两位老师讲的很清楚、颇有收获,收藏起来慢慢听。
Roo_RbWa
2周前
西班牙
0
两个都要,多年来也是这么做的,一个是精神,一个是物质,不可或缺,践行下来,过得还不错。
朝菌_EpaL
2周前
江苏
0
说好的厨师不会被取代呢