播客: 晚点聊 LateTalk - EarsOnMe - 精选播客，一听即合

播客简介...

《晚点聊 LateTalk》由《晚点 LatePost》出品。最一手的科技访谈，最真实的从业者思考。

晚点聊 LateTalk的创作者...

MasterPa

曼祺_MatchQ

王与桐

晚点聊 LateTalk的节目...

149: 具身模型哪家强？与范浩强、高阳聊具身模型的测评、RoboChallenge，26 年具身展望

晚点聊 LateTalk

「用大规模测评驱散 PR 式 demo 的迷雾。」虚拟空间的大模型有大量 benchmark，测试非常直观；而在如火如荼的具身领域，怎么衡量模型能力，本身还是需要探索的课题。这期，我们邀请了两位具身智能从业者，原力灵机联创范浩强和千寻智能联创与首席科学家高阳，一起聊具身模型的测评。范浩强从高三就开始在旷视工作，有丰富的计算机视觉开发和落地经验；高阳回国前在伯克利 BAIR 攻读博士，和 PI 的联创 Sergey Levine 有诸多学术合作。去年 10 月，原力灵机和 Hugging Face 联合发起了全球首个具身智能的大规模真机评测平台 RoboChallenge。在前不久释放的最新测评结果中，千寻的 Spirit v1.5 模型登顶榜单，表现超过 π*0.5。 RoboChallenge 测评平台网站：https://robochallenge.ai/home 图注：RoboChallenge 测评现场在 RoboChallenge 的测评中，机器人不再只活在精挑细选的 Demo 视频里，而是要在多样化的“Table 30”任务中接受真实世界的“毒打”——任务包括碎纸、插花，扫二维码。这期我们聊了具身模型测评的难点，RoboChallenge、RoboArena 等目前的大规模测评尝试是怎样的思路？行业里心照不宣的 demo 工程，以及 2026 年，我们可能从哪些路径逼近具身智能的 GPT-3 时刻。范浩强和高阳说，组织和参与测评的过程，组织和参与测评的过程，本身增强了他们对具身的信心，，从 π*0 在 Table 30 任务上只有 20% 的成功率到 π*0.5 的翻倍和一些国产模型的超越，具身仍很早期，但进步速度也很惊人。本期嘉宾：范浩强原力灵机联合创始人高阳千寻智能联合创始人、清华大学叉院助理教授本期主播：程曼祺晚点 LatePost 科技报道负责人时间线跳转： -发起 RoboChallenge，行业呼唤大规模测评 03:24 范浩强和高阳的从业经验 06:53 RoboChallenge 的发起，见证成功率从 π0 的 20% 到 π0.5 的超 40% 12:40 以往方法的问题：环境不一致、测评不持续、仿真有局限 21:47 对比 RoboArena 和 RoboChallenge：前者是分布式 Zero-shot 测评；后者是集中 few-shot 测评 28:33 上线 2 个多月的观察：超预期的 1 万条测试提交，国产模型超越 33:04 Table 30 任务集的设计，插花、扫二维码等任务的“刁钻”考点 40:24 提交者自己做 fine-tune（微调），开源权重证明诚信；接下来会更新灵巧手的测评 -2026 年具身展望 45:07 学习原理已经收敛，Scaling Data 是 2026 年的行业主题 48:53 4 种数据类型，各团队的不同数据 bet 57:20 落地应用，具身的“Coding”任务是什么？“破圈”时刻何时出现？ 01:07:00 大众与从业者之间的认知落差，行业心照不宣的“demo”工程 01:12:50 具身测评可以被 Hack 吗？如何反制 hack？ 01:14:52 26 年想验证的问题：具身中国追平美国的 DeepSeek 时刻是否到？基模能否上一个台阶？ 01:17:47 连点成线：总结观察具身进展的 3 个维度 & 具身创业团队的不同来源附录：本期中出现的一些人物、技术名词、项目、公司 -Sergey Levine：Sergey Levine，加州大学伯克利分校教授，机器人强化学习与通用学习系统的重要推动者。曾参与 Google / Google Brain 的机器人与强化学习研究，并共同创立具身智能公司 Physical Intelligence（PI）。 -π 系列模型：PI 提出的通用机器人模型系列，最新版本 π*0.6。 -CIFAR：一个经典计算机视觉数据集，相比之后出现的 ImageNet，它规模更小、分辨率更低，常用于快速实验和教学。 -Sunday Robotics：由 Tony Zhao 与 Cheng Chi 在 2024 年联合创立的家庭场景通用机器人公司。 -Generalist AI：2024 年成立的美国通用机器人 / 具身智能的创业公司。本期剪辑：Nick 小红书@曼祺_火柴Q即刻@曼祺_火柴Q ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

81分钟

5k+

1周前

148: 访谈它石创始人陈亦伦：具身的三道曙光和第一道关卡

晚点聊 LateTalk

「华为前自动驾驶首席科学家投身具身创业。」本期嘉宾是它石智航创始人陈亦伦，他曾担任大疆创新机器视觉总工程师和华为自动驾驶部门首席科学家。 2021 年，智能辅助驾驶的爆发前夕，陈亦伦在华为带团队开始采集大量真实的驾驶数据，用深度学习替代过去自动驾驶的规则方法，3 万行代码做了过去 200 万行代码的事，这是业界第一批探索端到端智能驾驶的尝试。陈亦伦说，那一刻，他觉得自己找到了自动驾驶的钥匙，而他还想用这把钥匙去探索一个年少时种下的更大梦想：通用智能机器人，也就是具身智能。在回到母校清华，于 AIR（智能产业研究院）担任智能机器人方向首席专家 2 年后，2025 年初，陈亦伦和百度原资深副总裁、百度智能驾驶事业群负责人李震宇一起创立它石智航，在最初 2 轮融资中，筹集了超过 2.4 亿美元。创下中国具身智能领域的首轮融资记录。这期节目，陈亦伦讲述了他从自动驾驶到具身智能的多年技术探索和研发实践，他看到的具身智能的 3 道曙光和 3 道关卡，以及怎么先越过其中的第一道：数据。本期嘉宾：陈亦伦，它石智航创始人兼 CEO 本期主播：程曼祺，晚点 LatePost 科技报道负责人时间线： -从华为、清华到创立它石，看到具身的三道曙光 02:35 用神经网络做自驾规控（PnC），3 万行替代 200 万行代码 11:13 三道曙光：强化学习提升运控（locomotion）能力；LLM 处理任务规划；端到端解决极端案例 17:13 端到端、VLA、世界模型，联系与区别 20:40 三道关卡：数据、算法、后训练 24:43 具身还在第一道关卡，数据；最后能经受大量数据的算法结构会很简单；GPT 最伟大的是定义了训练任务是预测下一个 token，而非架构本身 30:16 定义具身模型的训练任务：建立空间概念、跟世界交互 -数据解法：真实数据而非仿真和视频数据，手套采集而非遥操 40:54 具身需要真实数据，不看好仿真和视频数据 49:42 真实数据只有两个源头，世界与人；真实意味着场景真实、动作真实；为可穿戴设备是唯一解 55:08 手套+第一视角摄像头采集数据的具体实现 59:11 具身充满了硬件场景、本体、数据算法间的交替组合和协同优化，中国有供应链和场景优势 01:05:08 没有选择 VLA，具身会有自己的模型，而不是简单在 LLM 上发展具身已经到了 Scaling 的临界点 01:13:23 看数据增长趋势，具身已经到了 Scaling 的临界点 01:18:04 它石的落地场景之一是处理柔性材料的线束装配 01:21:15 能自己定义目标的具身公司就是靠谱的；成为别人，不是好的选择 01:22:38 连点成线：往期分享往期具身智能访谈：晚点聊 112 期：与千寻高阳聊具身：一个像机器人的人，怎么做像人的机器人晚点聊 96 期：和楼天城聊 Robotaxi：学习人类优秀司机，让我绝望晚点聊 86 期：We, Robot-2，清华叉院/星海图许华哲看“Optimus”的门道晚点聊 65 期：信仰充值的威力：与逐际动力谌骅聊聊 GTC 和人形机器人新进展剪辑制作：甜食小红书@曼祺_火柴Q即刻@曼祺_火柴Q ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

85分钟

8k+

2周前

147: 访谈OiiOii闹闹：“先抖音后剪映” 不再成立，AI 时代的创作工具和内容社区

晚点聊 LateTalk

「Agent 的工具可以以终为始。」今天这期节目，是晚点的作者祝颖丽对 OiiOii 创始人闹闹的访谈。本次访谈的文字版今天也会发布在《晚点科技》公众号上。 OiiOii 是一款动画创作 Agent。刚刚在 25 年 11 月开启内测。闹闹自己是一名动画爱好者，2014年，在微信工作 3 年后，她辞职学了半年动画。但当时她发现，做动画太难了，行业环境也很糟。时隔10年，在自己创过业，去字节做过剪映，在大模型公司阶跃星辰做过二次元社区产品“狸谱”之后，她找到了用 AI 延续动画梦想的方法。这期，闹闹分享了她和团队是如何构思和做出 OiiOii 的，以及她过去的创业和大厂经历。图：OiiOii 官网页面。地址：https://www.oiioii.ai/home）本期嘉宾：闹闹，OiiOii 创始人本期主播：祝颖丽，《晚点 LatePost》作者时间线跳转： 05:06 先做好工具，再去做内容的社区：因为大家不再能忍受内容的单调了 11:40 市场现状：现在动画的产能和消费非常不对等 16:46 OiiOii为什么是这个形态？ 31:04 如果做AI漫剧，商业模式、审美都不一样 41:30 怎么利用和理解不同的模型 51:50 现在的团队分工 53:50 第一次创业做极限运动社区，发现其实喜欢做内容 01:06:17 第一次创业留下的最宝贵的东西：抗体 01:18:15 在字节：对剪映和抖音特效最大贡献是… 01:27:17 去了B站：看到产能被憋着了 01:28:45 OiiOii 后面大致的节奏：填充垂类内容，去海外，做内容社区往期「AI 应用/AI Agent」创始人访谈：晚点聊 136：Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类晚点聊 125：用AI复刻一个「我」，与心识宇宙陶芳波聊身份模型晚点聊 111：Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端《晚点对话明超平：他们不信 AI coding 会是新的创作方式，我很开心》剪辑制作：Nick ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

101分钟

7k+

4周前

146: Gemini 3翻盘背后、Agent需要什么大模型、RL创业机会，与前 Google 创业者、硅谷投资人聊湾区动向

晚点聊 LateTalk

「一线开发者看到的前排变化。」本期是 137 期 Agentic 工具链节目的嘉宾返场，Henry 和 Naomi，他们近期刚刚和普林斯顿 AI 加速创新中心联席主任，王梦迪教授，一起成立了一家新的早期 VC，MoE capital。这次一起的也有两位之前在 Google DeepMind 和谷歌云 Vertex AI 平台工作 7 年，刚刚创业，成立 Agent 工具层公司 Precur 的戴涵俊和 Bethany。我请他们分享了，岁末年初，在硅谷观察到的 AI 水温，OpenAI、Google 等一系列新模型进展背后的故事，和围绕当今 Agent 与 RL 生态的创业机会。这是我们本年关于 Agent 的第 8 期节目。本期嘉宾： Bethany Wang，Precur 联创戴涵俊，Precur 联创 Henry Yin，MoE Capital 创始合伙人 Naomi Xia，MoE Capital 创始合伙人本期主播：程曼祺，晚点 LatePost 科技报道负责人时间线： -基础模型竞争和幕后故事：Google 在旧金山开 Gemini 3 Party 的同一天，OpenAI 发布 GPT-5.2 06:11 AI 进入实用工作：OpenAI 的 GDPval，Databricks 也发布了 Office QA 14:25 GDPval 在主流知识工作上表现优秀，但基础模型处理长尾问题的 gap 始终存在 19:09 Gemini 3 后，OpenAI、Anthropic、Google、各自的进展 22:15 NotebookLM 和 Nano Banana 策源地——Google Labs，不仅招工程师，也有主编、作家、创作者 24:54 DeemMind 研究员 Orio：Gemini 3 的秘密？预训练还有很多空间；TPU 对 Google 训练的加持 26:34 Google 的 3 层协同优化：从 TPU 到 Infra 到模型；模型和应用；数据和硬件 surface（终端） 30:18 Google TPU 已经更多对外，这对英伟达 GPU 优势的影响 38:02 回顾组织变化：DeepMind 和 Google Brain 的合并与磨合 -大厂竞争中，新公司的成长：围绕 RL 与 Agent 的创业机会 43:31 垂类的机会：弥补基础模型到具体问题的差距；水平的机会：调度层、数据层、工具层都有新公司涌现 50:17 技术新趋势——自我演化：RL、用 RAG 加长记忆有人尝试，但远不是成熟方案 53:32「可训练的工具层」背后的技术变化：code 驱动工具，如 Anthropic 的 PTC（Programmatic Tool Calling） 59:44 RL 创业方向：RL 环境，RL as a Service，RL 应用 01:08:47 Agent 开发者挑选模型的前置条件：用什么云（比如 Azure 客户用不了 Gemini），再看云厂商折扣 01:12:20 Anthropic 的 Claude Code 已成为 Agent 核心，刚发布的 Promatic to Call 探索新开发范式 01:17:13 开源模型使用体验：Qwen 很棒；驶往 NeurIPS 的飞机上，1/3 人在看 DeepSeek-V3.2 技术报告 01:22:04 选择模型时，关注什么 benchmark & 为什么？ 01:29:34 模型优化方向预测：加入大量 agent trace 的开源模型，更强的多模态，长程任务优化 01:38:58 连点成线：往期节目推荐《晚点聊》今年关于 Agent 的更多节目：晚点聊 106 期：与真格戴雨森长聊 Agent：各行业都会遭遇“李世石时刻”，Attention is not all you need 晚点聊 110 期：《与明势夏令聊Agent竞争：通用入口之战就要来，创业要做垂、做专》晚点聊 111 期：Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端晚点聊 130 期：手机Agent大幕拉开！从刚上线的AutoGLM 2.0聊起，大模型如何改造手机晚点聊 136 期：Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类Agent| 晚点聊 137 期：Agent 是机会，造 Agent 的工具也是|从OpenAI开发者日聊起晚点聊 138 期：从你用手机到它更懂你，OPPO的手机AI实践 |与小布负责人万玉龙聊端侧AI 附录：本期中提到的一些 benchmark： -GDPVal：OpenAI 今年 10 月发布的、用于评估大模型在复杂推理与决策场景中“价值对齐与结果质量”的验证型 benchmark，强调输出是否符合人类偏好而不只是“做对题”。 -ARC-AGI-2：ARC Prize 今年 3 月发布的、用于测试模型在少样本条件下的抽象、组合推理能力，被视为接近“通用智能门槛”的挑战集。 -OfficeQA：Databricks 今年 12 月发布的、围绕办公场景（文档、表格、邮件、日程等）的 benchmark，用来评估模型在真实工作流中的信息检索、理解与执行能力。本期中提到的一些产品/服务、公司 -PTC（Programmatic Tool Calling）：Anthropic 今年 11 月底发布的一种新的工具调用方法 https://www.anthropic.com/engineering/advanced-tool-use -Tinker：Thinking Machines Lab 今年 10 月发布的首个对外产品 https://thinkingmachines.ai/blog/announcing-tinker/ -Preference Model：一家旧金山初创企业，做强化学习环境剪辑制作：甜食、Nick 小红书@曼祺_火柴Q即刻@曼祺_火柴Q ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

100分钟

19k+

1个月前

> 全部节目

喜欢听晚点聊 LateTalk的人也喜欢的播客...