Album

卫诗婕|商业漫谈Jane's talk

努力做最有生命力的科技商业访谈。

卫诗婕_商业漫谈Jane 佚名
7.09万 订阅 77 集 2周前
播客简介
努力做最有生命力的科技商业访谈。 Let knowing flow. 卫诗婕:独立商业作者,曾任极客公园执行总编。早年就职于《人物》、GQ报道、字节跳动。虎嗅2024年度作者、金字节奖年度新锐作者、网易非虚构文学奖年度作者、全球真实故事奖TSA(True Story Award)中文报道十佳。 公众号:卫诗婕 商业漫谈 B站账号: 卫诗婕 商业漫谈 微博:诗婕SJ_Jelyne 小红书:诗婕Jane's talk 合作洽谈 👉 微信:SJ_Jelyne(添加请备注身份+事由) 读者互动,欢迎添加小助手微信:shangyemantan
节目
77.有关智元、觅蜂的愿景与野心,和具身智能的竞速之旅|与姚卯青的对谈

77.有关智元、觅蜂的愿景与野心,和具身智能的竞速之旅|与姚卯青的对谈

卫诗婕|商业漫谈Jane's talk

2026 年,具身智能成为了聪明人扎堆、资本热潮近乎疯狂的行业。这条热门赛道中,智元机器人是最早的百亿俱乐部成员之一。 在人形机器人出货量狂奔的路上,智元的野心并不止于“具身本体”的军备竞赛。今年,他们做出了一个让全行业瞩目的反哺举措:将旗下的核心数据资产彻底剥离,独立孵化了全球领先的一站式物理 AI 数据服务平台——“觅蜂”。 本期嘉宾姚卯青,不仅是智元合伙人、具身业务部总裁,也兼任觅蜂的董事长兼CEO。这期播客在五月觅蜂发布会后录制,或许是有关智元战略的,最深入完整的一次访谈。 (本期视频的微博开屏页,欢迎前往微博等平台观看视频版~;也欢迎前往公众号,查看「漫谈Light the Star」访谈的文字版~) 从Waymo到蔚来再到智元,姚院亲历过自动驾驶从概念到量产的全过程,他说“今天的具身智能连GPT1都没到”,而机器人离真正涌现智能,还差一亿小时的数据。 本期嘉宾: 姚卯青(智元合伙人、通用业务部总裁, 觅蜂董事长兼 CEO) 本期 Shownotes: Part 1. 02:40 关于姚卯青:从清华电子系到南加大,从 Waymo到蔚来 * 「人间清醒」与「顺势而为」 * 清华电子系的系统训练:电路、通信、信号处理、计算机视觉、编程和算法,都是自动驾驶和具身智能的底层能力 * Google Display Ads 团队:计算机视觉、NLP 与 Transformer * 内部转岗 Waymo:可能是当时全球最难的面试 * Waymo 的三年: Robotaxi, 从技术 demo 走向商业化运营 Part 2. 17:28 蔚来的量产课:激光雷达、车规体系和数据飞轮 * 为什么选择蔚来? 「单平台、全标配」的产品策略,激光雷达、4K 相机和高算力硬件一体的统一底座 * 蔚来李斌:「被人骂也是被记住的一种方式」——做关键决策需要勇气 * 多模态融合感知、激光雷达感知、BEV、Occupancy Network、AEB …关于自动驾驶的种种 * 选择回国:相比 Waymo 的几百辆 Robotaxi,国内乘用车百万级保有量所带来的数据分布和 corner case 密度,是完全不同的飞轮 * 量产经验到底是什么?「不是把样机多复制几台,而是项目、研发、测试、供应链、质量、版本和数据闭环的组织能力。」 * 能迁移到机器人的是什么?异常数据回流、模型迭代和现场版本下发 Part 3. 28:31 当自动驾驶派进入具身:优势不是算法,而是底座 * 自动驾驶派进入具身智能,最大的价值是理解强电系统、供应链、质量、量产和底层软件稳定性 * 机器人和车,在电子电气架构、操作系统、中间件、传感器输入到电机控制等底层工程上高度相通。 * 车就是最简单的机器人?「有点牵强」 * 在很多低速场景中,机器人反而更有机会部署 VLA、世界模型等前沿模型 * 真正稀缺的人才,不只是刷榜或发 paper 的人,而是上手修过 bug、和硬件软件都打过仗、能把复杂系统跑稳定的人 * 具身创业的三大派,都有不可替代性 * 机器人终局架构不会只是「快慢系统」两层,可能包含: 1000Hz 底层控制、10 到 20Hz 动作规划、1 到 2Hz 阶段目标规划,以及更高层的 Agent 长程推理。 Part 4. 35:19 讲「基模」太早了,具身连 GPT 1 都没到呢! * 「2026 年了,具身智能到底到 GPT 几了?其实 1 都没到呢」 * 「现阶段的真机数据量,和真正支撑基座模型涌现的数据规模,还差四五个数量级」 * 很多公司强调自己做「具身基模」,是借用了大语言模型时代的资本叙事 * 今天的具身更像 Transformer 和 BERT 早期,而不是 GPT-3 之后 * 数据的关键不仅是「量」,还包括信息维度、场景种类、失败样本和真实部署中的边界样本 * 多模态融合是必然趋势,视觉远远不够 * 真正的瓶颈不是算法是否足够聪明,而是真实世界数据的量、模态、场景和失败样本远远不够 Part 5. 49:59 有关智元最完整的战略揭秘:一家 AI 公司,而不只是机器人公司 * 神秘的邓泰华其人 * 智元Day 1 定位成 AI 公司,而非单纯的人形机器人公司 * 人形机器人是把 AI 带入物理世界的必要载体,但不是终点 * 「智元确实是这个行业里最有野心的公司之一」 * 智元的组织架构、融资节奏与股权激励 * 具身公司的长期价值不只在本体硬件,而在能否把「本体、数据、模型、场景」做成闭环。 * 精灵 G2 所经历的完整 IPD 流程:接近 9 个月 * 机器人行业的需求峰谷比汽车更剧烈 * 工业不相信眼泪,最终都是 ROI:「」工业客户不关心你是人形、猴形还是狗形」 * 智元的「358 战略」:从量产、商用到部署 * 具身智能最终不是单点技术竞赛,而是系统工程。 * 当技术路线逐步收敛、场景开始渗透时,先把 90% 的体系能力构建好,才可能真正承接行业机会。 Part 6. 01:55:26 VLA、世界模型和机器人数据飞轮 * 智元的 AI 研发体系:模仿学习、VLA 预训练、世界模型、强化学习后训练和数据闭环 * Google PaLM-E :VLA 来自语言模型和多模态语言模型向物理世界的迁移 * 世界模型更像对物理规律和状态转移的数字化、神经网络化描述 * 「VLA 和世界模型都不是最终形态,未来更可能是分层架构」:前̶者̶受̶限̶于̶语̶言̶和̶动̶作̶之̶间̶的̶表̶征̶鸿̶沟̶,̶后̶者̶仍̶更̶多̶来̶自̶二̶维̶视̶频̶和̶第̶三̶人̶称̶视̶角̶ * :̶语̶言̶推̶理̶、̶物̶理̶预̶测̶、̶低̶层̶控̶制̶、̶长̶程̶规̶划̶和̶数̶据̶飞̶轮̶共̶同̶工̶作̶ * 世界模型的价值在于学习液体流动、玻璃破碎、软体形变等真实物理规律 * 「后训练和失败数据非常关键」 Part 7. 02:08:49 觅蜂:具身版 Scale AI,机器人数据界的「滴滴」 * 投资人的主意:对标上一轮 AI 时代的 Scale AI ? * 具身数据生意比传统数字世界标注难得多 * 2026 :具身数据军备竞赛年 * 模型的差异化暂时不大,数据会是分水岭 * 打造一个公共性质的数据服务平台,一个「阳谋」:客户花钱带来数据需求,平台用数据训练模型,模型再反哺采集、预标注和质量管理效率 * 数据问题都没解决,讲基模预训练、后训练,都是空中楼阁 * 高质量数据的第一点是真实:场景和任务必须足够丰富,能够覆盖生活和生产中真正会遇到的问题 * 规范:相机曝光、画质、设备同步、轨迹重建精度、操作流程都要高标准 * 「脏数据」不是质量差的数据,而是包含失败、偏移、纠错、重新规划和最终成功的多样化数据 * 仿真数据并不天然低价值 * 关键不是流派,而是任务、场景、成功率要求和模型使用方式 * 数据的价格、产能和全球化 * Deepmind 和 Genralist:「如果数据是具身智能竞争的唯一决定变量,中国公司现在就可以宣布他们是赢家」 * As many as possible, as soon as possible(越多越好,越快越好). Part 8. 02:43:43 从数据标准,到 G3-G4 中间态 * 好的数据标准会逐步收敛 * 即使不同机器人硬件不统一,很多数据仍可以被抽象为通用表达,如末端执行器轨迹、二维帧序列、物理状态变化等 * 机器人行业的安全和质量准入标准,会在两到三年内伴随大规模商用逐步出现。 * 从 G1 到 G5 ,当前行业大约处在 G3 到 G4 的中间态 * 预计 2027 到 2028 年行业有希望达到 1 亿小时级数据规模 * 真正类似语言模型那种涌现能力,还需到 1 亿小时级高质量数据出现 Part 9. 02:54:42 最期待的画面:机器人第一次让人觉得「觉醒了」 * 机器人出现真正的 aha moment:不再只是从画面到动作的肌肉映射,而是能在复杂环境里自主规划、理解指令、做出响应 * 涌现时刻大概率发生在实验室,而不是工厂 * 数据会成为这一轮智能化转型关键基础设施,但它比算力更难获取 加入听友群⬇️

178分钟
16k+
2周前
76.与 00 后创业者源培的访谈:从 RoboMaster 到李飞飞实验室、两次「全球首次」,与自由快乐的非标人生

76.与 00 后创业者源培的访谈:从 RoboMaster 到李飞飞实验室、两次「全球首次」,与自由快乐的非标人生

卫诗婕|商业漫谈Jane's talk

AI 原生一代,将写下怎样的新故事。这是这一轮 AI 浪潮以来,投资人们最关心的问题。 今天的访谈嘉宾,是 00 后具身创业者,陈源培。 他曾在斯坦福李飞飞的实验室,实现了全球首次双臂长程灵巧操作,以及全球首次「用人类数据训练机器人双臂灵巧操作」。 土木工程本科出身的他,高考前一天还在打游戏,却通过 Robomaster的比赛结缘机器人,并跨界师从北大强化学习专家杨耀东,成为强化学习的前沿学者,继而进入斯坦福李飞飞的实验室,做出全球首创的成果。 相比「天才少年」叙事,这期更值得品味的,是一个一再印证,学习没有固定范式、创新没有标准答案的故事。以及开放、多元、包容和谦卑的学术品味与视野。 无论游戏、RoboMaster、科研,在源培那里都有一条共同线索:它们都像升级打怪,靠快速学习、持续探索和反馈提升能力。希望其中的思考方式,能给大家启发。 (本期视频欢迎前往 b 站、视频号、小红书、Youtube 等平台观看~) 本期嘉宾:陈源培,灵初智能联合创始人 本期 Shownotes: 02:51 从游戏到 RoboMaster:工程能力从系统里长出来 * 高考前还在打牌的 00 后:通宵打游戏,差点被选去电竞青训 * 父母最大的影响是「完全不管我」 * 大疆 RoboMaster 冠军:机械、电控、嵌入式、上位机、控制、算法…训练的是复合能力 * 深入代码底层,不会并不是一个门槛 * 机器人并不是单点算法问题,全栈系统思维是稀缺的 * 工程性的东西,更多看的是细心程度与快速学习能力 * 俄乌战争给源培的「觉醒」——突然觉得发 paper 、抠创新点,对世界没什么帮助 16:41 师从杨耀东,最早 Isaac 使用者与并行仿真 * 师从强化学习知名学者杨耀东,用强化学习做灵巧手 * 零帧起手强化学习 * OpenAI 的 Shadow Hand (2019)的解散,强化学习解魔方——酷但昂贵 * 「我是英伟达 Issac 最早的使用者」「那个版本应该绝版了」 * 「未来用 GPU 做仿真,一定是大势所趋」 * 首篇论文即震撼行业:高自由度操作可以在大规模并行仿真中训练出来 35:05 强化学习 vs 模仿学习,什么是训练直觉? * 强化学习的峰回路转:监督学习和模仿学习的短期效果让强化学习一度被质疑;直到O1 等方向又重新证明了强化学习的价值 * 模仿学习见效快,但泛化弱;强化学习潜力大,但极吃 Know-how * 模仿学习不是未来 * 从人手中心到物体中心:描述物体轨迹如何变化,让机器人知道大致目标,再在小范围里探索 * 奖励不需要把每个动作写死,需要留有空间任 AI 自己探索 * 真正的系统能力是「方法都告诉你了,但你调不出同样效果」 * 我训强化学习还挺厉害的:「基本上大家以前都看曲线,只有我是打开仿真,盯着机器人学习。」 43:37 进入斯坦福李飞飞实验室:从强化学习中心主义,到多元的学术视野,与技术地图 * 每条路线都有价值,未来更可能是吸收各自优点的融合过程 * 更开放的研究氛围:连接图形学、灵巧手、模仿学习、人类数据 * 师从 Karen Liu :把机器人操作、动捕、人类数据和仿真强化学习连接起来 * 不要太 Ego,不要靠形容词证明强,让结果本身说话 * 一周可以水一篇顶会的代价是放弃自己其他可能性 * 「从斯坦福回来后,他像变了个人一样」 50:51 跳出舒适区 + 螺旋上升的具身技术史 * 具身技术发展的螺旋:抓取→ CV+模板 → 直接学轨迹(模仿)→ 人遥操太慢 → 强化学习自己探索 → 仿真效率低→ Isaac Gym 并行仿真+Sim-to-Real → Sim2Real Gap 太大→ 软体场景模仿学习反超(Diffusion Policy/ACT)→模仿学习也不够→ 后面接强化学习→世界模型起来后,又回到仿真训 RL * 灵巧手最大的价值,不是因为它像人,而是因为它最容易吃下人类操作数据 * 与夹爪或专用末端执行器相比,五指手和人手之间的 Embodiment Gap 更小,更适合做 Human-Centric 数据采集 * 「以物体为中心」的通用表征:操作的本质是让物体沿某条轨迹发生变化,而不是复刻人的每个关节动作 * 具身 Scaling Law 的核心可能不在遥操数据,而在人类日常操作数据; * 硬件形态本身会决定能吃下什么样的数据 * Sequential Dexterity 的祛魅:学术需要 novelty,这没太大意义 58:26 仿真派的价值和上限 * 我曾经就是个仿真派 * 仿真无法根本解决真实世界复杂交互,尤其在软体、碰撞、接触和高精度成功率方面 * 可微仿真和世界模型都试图缩小 Sim2Real Gap,但目前仍受限于算力、图形学、物理交互和数据量 * 仿真 vs 真机,谁快?仿真的场景 Scaling 能力未必比真实世界快 * 仿真可以做出很 Fancy 的 Demo,但不是当前可见的终局 * 如果世界模型足够强到生成全场景仿真,它本身也需要先吃下海量真实数据——如果做出了世界模型,那肯定先做出了好用的 VLA * 一个研究者最重要的能力不是在舒适区里把"已经会的事"做得更深,而是逼自己跳到不熟悉的方向;这一点反人性反惰性,因为你在擅长的方向也确实有想探索的东西 01:17:02 具身 Scaling Law 会撞上硬件问题 * 具身 Scaling Law 的核心问题是数据,单靠遥操数据很难堆到足够规模 * 百万小时级别的人类中心数据,至少能让行业看到一些效果 * 「我是实用主义派」 * 与语言模型不同,具身智能会遇到硬件差异:不同手、不同本体、不同自由度都会影响数据和模型泛化 * 跨本体泛化的关键,是提取人类操作中通用的信息,再用强化学习补足机器人具体关节、力和接触细节 * 语言模型可以在统一的 token 空间里 Scaling,具身智能必须同时解决数据规模和硬件本体差异 01:22:12 创业后的路线选择:先坚定,再快速调整 * 2024 创立灵初时,市场上很少有人强调灵巧手操作和强化学习 * 择做长程灵巧操作、强化学习、人类中心数据和双手路线,对于一家创业公司,是信仰和耐心的考验 * 要去做别人做不到的事 * 当前的路线没有不能复刻的,都不够本质:但仍然保持灵活,可快速调整 * 具身创业的难点是同时平衡商业化和预研,短期场景可以做,但公司不能忘记自己到底是不是模型公司 * 「你不能有包袱,最后还是结果说话。」 01:38:04 世界模型、VLA 和算法口号的泡沫 * 灵初的具身大脑是糅合路线:硬件、采集、数据处理、模型训练和部署,形成端到端闭环 * 模型架构和口号本身不是护城河 * 广义 VLA 只要输入视觉和语言、输出动作即可 * World Action Model 也只是增加未来帧预测等辅助监督 * 单靠改模型架构、模块连接方式就带来突破性变化,我认为这几乎是不可能的 * 真正重要的是训练范式、数据规模、数据质量和完整 Infra * 马斯克为什么不喊世界模型——世界模型本身不产生价值,真正产生价值的是它能否在具身、能源、航天或其他真实任务中解决问题 * 具身行业的泡沫:太多人说的和做的不一样,一些投资看不太懂 01:45:05 主动世界模型:从数据里选择有用信息 * 关于「主动世界模型」的思考:机器人需要主动判断哪些信息有用,哪些是噪声 * 世界感知分成客观世界规律、主动选择机制和自身 Policy 三层,其中最缺的是中间那层主动选择 * 数据 Scaling 不是无脑加数据,低信噪比数据可能损害模型能力 * 我是实用主义:脑科学、神经元结构、主动世界模型等想法都可以借鉴,但必须通过效果验证 * 具身下一阶段的底层创新:可能不是继续堆模块,而是找到类似语言模型 next-token prediction 的训练范式 02:03:15 「我的人生,绝对不可能不快乐!」——兴趣、非标与系统性思维 * 不要害怕环境、专业或起点带来的限制,去做自己真正感兴趣的事 * 机器人人才,最重要的三点:追求卓越、系统性思维、不要太 Ego * 「再垃圾的 paper,也有你可以学习的点!」 * 「我追求的是影响力,对真实世界产生价值的影响力」 * 未被验证的人才和未被验证的路线,可能写下真正的突破 加入听友群⬇️:

134分钟
9k+
3周前
75.登顶大摩全球人形机器人报告,灵初凭什么代表中国?|与创始人王启斌聊「灵巧操作」

75.登顶大摩全球人形机器人报告,灵初凭什么代表中国?|与创始人王启斌聊「灵巧操作」

卫诗婕|商业漫谈Jane's talk

2026 的上半年,中国资本市场围绕具身进行了大规模的布局,将具身大脑这个赛道推向了前所未有的热度。 这期的嘉宾灵初智能,刚刚登顶了摩根士丹利最新发布的《全球人形机器人研报》,它被视作中国具身大脑阵营的核心代表之一。从灵巧操作出发,这条大脑路线直指智能的上限。 创始人王启斌是 70 后产品背景,乔治华盛顿大学博士,完整经历了"智能设备 → 移动机器人 → 具身智能”的三次范式更迭。 我们的访谈不仅涉及到大量具身行业的真实进展,也描绘了在具身这个早期行业中,从研发(R)到工程(D)到产品(P),所谓 RDP 的全流程。 2024 年,70 后王启斌,和80 后算法老兵柴晓杰、 90 后北大学者杨耀东、00 后天才少年陈源培,组成了灵初智能这支具身“7890 战队”,成为这个行业背景最豪华的团队之一。 (本期访谈的视频版已经登录 B 站、视频号、微博、小红书、Youtube 等平台,欢迎前往观看~,文字版可前往公众号「卫诗婕 漫谈 Light the Star」) 本期嘉宾:王启斌(Viktor)· 灵初智能创始人 本期 Shownotes: Part 1. 00:00-08:56 让机器人「动手」,为什么是皇冠级的大脑问题? * 灵初是谁? 被摩根士丹利视作中国大脑核心代表,灵初是谁? Hugging Face 上 1000 小时多模态数据集下载量第一 希腊字母第 23 个 Psi(Ψ),意指强化学习,「像孩子一样在环境中交互、逐渐长大」 为什么做大脑的公司普遍估值更高? * 什么是通用灵巧操作?为什么说人类操作数据是一座富矿? 操作的三种能力:对任务做长程语义分解(规划)、手眼协同、实时纠错 人类能力的演进顺序:行动最早(灵长类)、视觉次之(寒武纪)、语言最晚——而机器恰好相反 机器人不一定像人类那样大脑/小脑严格分开,目前没有完美的大小脑结构能拟合类人能力 夹爪很难做类人复杂操作 操作知识不具备可传承性——如何把人类经验挖出来变成可训练的数据,是具身要回答的根本问题 Part 2. 08:56-20:04 Why now:具身浪潮,周期与淘汰赛 * 2026,具身为什么更热了? 「新的浪来了」:过去几波范式不会持续这么长 why now 的底层:具身是真正回到物理世界的问题 具身的市场,只会比智驾更大:上一波公司的顶点,可能是下一代公司的起点 跑完一个 cycle 约 7 年:至少会有三轮淘汰赛 * 关于王启斌:黑莓vs苹果,一个产品老将经历的范式更迭 黑莓曾是全球唯一净利率 25%+ 的公司(另一家是苹果) 从苹果开始,ToB/ToC 没有绝对分割 什么是苹果真正的胜负手? 新世界物种对旧世界的降维打击,是如何发生的? 「站在旧世界的人不用 complain,这就是宿命。」 「当年带 Sonos 全球 CEO 见百度陆奇,是我的心结」 什么样的 ToC 产品能击穿 ToB?苹果做到了。具身领域有机会吗? * 20:04 中美硬件之争,穿越周期的产品经理,与审美 审美的物质基础:Jony Ive 的设计传统在英国,小米设计领导人传统在德国,消费电子审美在欧洲 Sonos 和 B&O ——两种产品哲学 小米生态链/IoT 兴起(2015)后,中国消费电子工业设计的崛起&底层:从整机到核心零部件的全链路掌控 + 快速迭代 Part 3. 中美硬件之争,两代机器人公司,谁会赢? * 「美国大脑领先、中国硬件领先」,人们只看到了轨迹的起点 为什么从泛化性居中、节拍较低的物流和服务业 toB 切入 5 年内「只做模型不做硬件」是伪命题——具身现处于软硬深度耦合阶段 落地两种形态:固定上半身、可移动+上半身——两种构型,训同一个模型 具身的数据飞轮和车完全不同——车有存量市场,具身去年头部出货才 5000 台,飞轮必须靠人类数据冷启动 * 上一代自动化机器人 vs 具身新秀派,谁会赢? 上一代移动机器人靠 SLAM(2015 前后)和基于规则的技术,深耕单一场景;当下具身解决更复杂的操作问题,用 learning base 的学习范式,人才完全不同 三个顶层问题:解决什么问题、用什么技术路线、什么样的人才; 创新者诅咒:成熟公司有自己的场景循环,可能恰恰是负担 仓储物流、无人配送领域,全是创业公司赢了(海柔、极智嘉、新石器)——阿里、美团、京东,为什么都落后了? 「原来真的是书上得来终觉浅……谁有场景谁赢,是个错误。」 Part 4. 灵初的成立:7890 战队 & 科学家创业潮 横跨中美,花半年时间找科学家: 国内能做灵巧操作的不超过 10 人 如何判断科学家是否适合一起创业? 在斯坦福李飞飞实验室的 00 后联创:强化学习,将人类数据迁移到灵巧操作的 Sim2Real 「7890 战队」:为什么具身需要的人才跨度大?跨代际和领域的融合难度? 怎样治理一个软硬数据耦合的复杂组织? 为什么「量产那套」不完全适用于具身大脑研发? AI 时代,为什么强调「治理」而非「管理」? 硬件派 vs 模型派的路线分野:从硬件出发(做到稳定便宜规模化,特斯拉思路)vs 从模型和数据出发(用优质数据训模型,灵初思路) Part 5. 01:01:06 具身数据的真问题,与中国的另一种叙事 * 可规模化预训练的优质数据长什么样?数据管线怎么做? 算力、数据手套与数据飞轮:灵初的真实数据方法论 什么是检验真做大脑 or 水货大脑公司的金线? 数据洞察:手的 3D 关节角精确度 > 触觉 > 2D 照片; 全模态数据,比纯第一人称视频更精确丰富 行业最大的10 万小时手部多模态数据怎么来? 数据管线 = 数据处理平台(审核、标注、处理)+ 进训练框架训模型 + 模型反馈 +抽象出数据洞察 * 具身数据乱象:已经出现一些空置的数采场 没有模型需求方牵引,数据采集一定是无序、低效、垃圾场级别的 只有真正在训模型的大脑公司,才有资格定义「需要什么数据」、才能分辨「什么是 garbage」; 「投资人最后看的是这道菜到底怎么样,他并不知道这道菜里头真正用了多少调料。」 * 具身大脑看美国?中国有机会做出好大脑吗? 中美数据成本差约 10 倍,低成本 + 多样性是中国的机会 关于派(Pi):证明了真实数据在夹爪上能泛化,验证了真实数据路线 现在远没到具身的「ChatGPT 3.5 时刻」:非结构化环境的通用还很漫长,但「专注一个 domain 」的通用是可以做出来的 灵初的双模型架构:R 是策略模型(输入图像/语言/本体状态,生成动作);W0 是世界模型(像真实世界仿真器,评估动作后的状态,用强化学习优化、放入约 30% 纠错失误数据),两个模型串成闭环,再回流生成新数据集 主流架构(Transformer)能不能成为绝对垄断架构,还需数据验证——Transformer 是在 GPT-3.5 之后吃掉巨量数据、加上强化学习才被验证的;具身底层架构的有效性,同样要靠足够的数据来验证 Part 6. 01:22:54 「游戏才刚刚开始,第一轮淘汰赛都还未开始。」 * 具身大脑公司,怎么做? 大模型&后训练人才:创业公司怎么和大厂抢人? 最难的事怎么解决?——「没有失败过的成功,是不可信的」 为什么拒绝把灵初定位为一家「AGI 公司」? 通用灵巧操作是技术通货:「未来我们甚至可以不做机器人」 AI 时代的产品经理有三个圈——懂技术、懂 UI(用户交互)、有商业思维 * 从 R(research),到 D(Development),到 P(Product)——如何在一个大组里快速迭代? 选场景必须同时满足两个条件:有真正商业价值的共性痛点(应用面广)、且符合数据泛化性需求 进工厂的事故责任:作为供应商有协议要负责,高节拍流水线很难,流水线下的供料等场景可跑通; 「具身这个行业早已被客户簇拥」 「曲线已开始跑但还没到真正拐点」「今年底是模型泛化性的第一个验证阶段」 基于数据量的模型迭代军备竞赛已开始,周期 3 年以上 「百万小时数据是我们最早提的,现在所有人都这么说时反而要警惕」 Part 7. 01:53:30 一个 70 后创业者的务实 & 浪漫 * 创业是冲浪还是西西弗斯:不存在"走到某阶段就彻底释放",过程本身才最重要 * 「某天清晨阳光斜照在 logo 墙上的一瞬间」 * 真正的中年危机:40 岁时,最怕未来与自己无关 * 「我最讨厌被叫老板」 * 我强烈推荐你去读摩根·豪泽尔的《Same as Ever》 * 创始人的基因(vision/mission/经历)真正决定了公司的路径 * DeepMind 哈萨比斯押注 AlphaGo 做出世界级成果,却 miss 了大语言模型;OpenAI 以"安全/非营利"起家,最后一批人出走创立 Anthropic——同一场 AI 史诗里有各种活法 加入听友群⬇️ 如果你是具身领域的专业 researcher ,欢迎添加主播微信(SJ_Jelyne).

124分钟
33k+
1个月前
74.与地瓜、阿里云的访谈:机器人爆发前夜,工程师成长,与 AI 的第三朵云

74.与地瓜、阿里云的访谈:机器人爆发前夜,工程师成长,与 AI 的第三朵云

卫诗婕|商业漫谈Jane's talk

回看历史,人类信息化的每一次范式转移,都有着相似的规律。移动互联网时代的真正到来,并不是因为第一代智能手机的组装下线,而是因为 iOS 和安卓生态的建立、云基础设施的普及,才让千千万万的独立开发者能够以极低的成本创造出改变世界的应用。 开发者成群涌现的前夜,往往是奇点到来的钟声。 今天的嘉宾,正是为这场范式革命加速的具身基建创业者。地瓜机器人的基础设施研发负责人秦玉森,以及阿里云无影事业部总经理张献涛博士。 秦玉森有着 20 多年的机器人开发经验,也是一名成熟的技术管理者 。在这一轮具身革命中,他与地瓜机器人,致力于打造机器人行业的母生态。 张献涛博士则亲历了移动互联网时代,云生态的建立。这期节目中,他清晰地讲述了,云计算,将如何成为撬动整个具身商业社会的超级杠杆。 这期内容不仅包含大量机器人的硬核技术,更是一部关于技术、人才以及基建变迁的微观商业史。 本期嘉宾: 秦玉森 - 地瓜机器人的基础设施研发负责人 张献涛 - 阿里云无影事业部总经理 本期 Shownotes: Part 1 . 03:06 机器人之梦 2000 年前后的机器人竞赛 九号收购赛格威机器人之后 北有九号,南有大疆 Part 2. 11:04 工程师的黄金年代 工程师的职业发展启示 & 工程师如何改变世界 技术管理挑战:《人月神话》 从工程师到架构师:认知从线性变立体 Part 3. 22:18 拐点已至:机器人爆发前夜 何为「战略节奏」:需求牵引出结构洞 自动驾驶与具身的人才大战:两个行业的前世今生 大模型降低工程师门槛,晶体智力 & 流体智力 实干家、具身三大派创业与各自的职责 机器人的美在于不完美 Part 4. 35:25 AI 时代的第三朵云:打造机器人的母生态 过去,机器人开发有多难:从重装电脑开始 中国STEM教育领先,小学生玩机器人很常见 什么是机器人的空气、土壤和水? 具身的「重复造轮子」:资源饱和溢出 为什么 Infra 人才特别稀缺? Part 5. 51:27 具身智能融资战 & 场景之战 资本泡沫可以让这个行业快速试错和试对 共识会极速形成 2025 每月的技术进步,快于过去的每一年 工程师培养,从 8 年压缩到3 年 年轻人脑子里的噪音更少,跑得更快 Part 6. 01:10:41 云的变迁 从云计算,到终端智能云计算 阿里云往事:All in 无线,关键一役 机器人时代的第三朵云,长什么样? Part 7. 01:24:02 AI 时代,云架构重构,Agent 与阿里的 TokenHub 什么是 Token 经济?阿里巴巴为什么要组建 Token Hub? 云上输出 token,独立开发者可推动浪潮 当 token 资源不再稀缺,大模型时代爆发期也将过去 Agent 加速机器人自进化,机器人在「做梦中」实现进化 养虾是养一群虾:必须是智能体群协作 Part 8. 前夜:开发者爆发、AI 原生代与利他生态 技术、终端和开发者工具的普惠体系 加入听友群⬇️

121分钟
15k+
1个月前
评价

空空如也

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧