播客: 信号与噪声 - EarsOnMe - 精选播客，一听即合

播客简介

绿洲出品的播客栏目以心印心，在AI时代参赞生命力

创作者

绿洲资本 1 档播客

节目

E13.许华哲：刚起跑的具身，不等上市的人｜北坡计划

信号与噪声

🎙️ 【本期简介】北坡计划第二期，我们与破壳科技创始人、清华大学助理教授许华哲进行了一次深度对谈。过去两年，具身智能几乎成为最炙手可热的行业方向之一，整个行业都在快速进入一种 “加速叙事” 里。但在许华哲看来，今天的大部分进展，距离真正意义上的通用，只是跑完了“第一公里”。很多问题甚至还没有被真正开始解决：大规模数据从哪里来、系统如何泛化、长期任务如何稳定执行、人类世界里的复杂物理交互怎样被真正理解。某种意义上，具身智能并不是一场短跑式的技术爆发，而更像一场周期极长、需要持续迭代的马拉松。而比起“什么时候赢”，许华哲更在意自己想做的事情什么时候开始。 “做自己真正想做的事，才是最贵的特权。” 因为真正吸引他的，从来不是已经抵达的结果，而是那些尚未成形的新东西，是不断进入未知、不断突破边界的过程。聊到音乐时，许华哲提到自己很喜欢贝多芬的《英雄》交响曲。那种仿佛提枪上阵、持续战斗的力量感，让人着迷。某种程度上，他自己也是这样的人。折腾不息，战斗不止。 👤 【嘉宾介绍】许华哲：破壳科技创始人，清华大学交叉信息研究院助理教授、博士生导师，具身智能实验室负责人。本科毕业于清华大学电子工程系，博士毕业于加州大学伯克利分校，博士后就读于斯坦福大学，长期从事具身智能、强化学习与机器人方向研究。23 年参与孵化具身智能公司星海图，被视为国内新一代具身智能研究者与创业者中的青年代表人物之一。 🕒 【精选时间戳】 03:43 “市场好坏不是本质，把机器人做出来才是使命” 06:31 具身智能像一场马拉松，但行业可能刚跑到第一公里 08:42 我们相信 scaling law，今天还没有真正“证明” scaling law 09:59 什么是真正的零样本泛化？“你发给我，我跑一下试试” 14:04 VLA “还不够优雅” 17:48 从 reactive 到 model-based：机器人为什么要预测未来 30:10 中国具身智能研究者真正缺少的，其实是“心气儿” 35:50 创业团队不应该为了“符合市场形状”而拼接 43:18 今天最强的 Researcher，真正想要的是做出 GPT 级别的东西 46:55 伯克利的学术氛围，所有人都可以直接说“This is wrong” 56:51 Lab 是放大个人形状，公司是放大组织形状 01:00:00 为什么更喜欢用“生命体”而不是“工具”描述人与组织 📚【相关提及】 * Figure 长时间直播：美国机器人公司 Figure 从 2026 年 5 月 13 日开始，用 F.03 机器人 + Helix-02 模型连续直播 191 小时（约 9 天），自主完成 23.8 万件包裹分拣；在测试片段，总计 318 个分拣的样本中，成功率约为99.7%。 * Generalist 的“一根线”：指 Generalist 每次发布时附上的"数据量 vs 模型性能"曲线。数据越多、机器人成功率越高的上扬上扬曲线，是目前机器人领域最接近 Scaling Law 的视觉证据。 * UMI（Universal Manipulation Interface）：斯坦福 Shuran Song 团队 2024 年发布的开源机器人数据采集方案。人手戴上夹爪手柄 + 摄像头就能采集数据，不依赖昂贵的机器人本体。在保留毫米级末端精度的同时大幅降低了数据采集成本，是目前业内公认性价比最高的具身数据采集形态之一。 * 视觉 SLAM（Visual Simultaneous Localization and Mapping，视觉同步定位与建图）：是一种仅靠摄像头就能让设备实时知道"我在哪、周围长什么样"的技术。系统通过分析连续视频帧之间的画面变化，一边推算自己的运动轨迹、一边重建周围环境的三维地图——是扫地机器人、AR 眼镜、自动驾驶等场景的底层能力之一。 * "动作头"（Action Head）：机器人模型最后一层、专门负责"输出动作"的小网络模块。它接在一个已经训练好的视觉-语言大模型后面，把模型理解到的画面和指令翻译成机器人能执行的具体动作（如关节角度、夹爪开合）。 * WAM（World Action Model，世界动作模型）：2026 年 5 月 arxiv 综述论文（arxiv 2605.12090）正式命名的范式，由 OpenMOSS 等团队提出，把"预测未来世界会怎么变"和"输出机器人动作"统一在同一个网络里完成。 * AMI（Advanced Machine Intelligence，高级机器智能）：图灵奖得主、Meta 前首席 AI 科学家杨立昆（Yann LeCun）于 2026 年 3 月正式创办的 AI 公司，首轮种子融资 10.3 亿美元、估值 45 亿美元。 * JEPA（Joint-Embedding Predictive Architecture，联合嵌入预测架构）：杨立昆（Yann LeCun）2022 年提出的世界模型架构。它不像主流大模型那样直接生成像素或文字，而是让 AI 在抽象隐空间中预测未来世界的变化——只学"会发生什么"，不学"长什么样"，被认为是更接近人类理解世界方式的路线。 * Diffusion Policy（扩散策略）：哥伦比亚大学 Cheng Chi、Shuran Song 等人 2023 年提出的机器人动作生成方法：把扩散模型迁移到动作生成上，让机器人"从一团噪声里逐步去噪、生成一段流畅的动作序列"。配合 Action Chunk 使用，是当前模仿学习最主流的方法之一。 * Action Chunk（动作块）：机器人模仿学习中的关键技巧，由斯坦福 Tony Zhao 等人 2023 年在 ACT 论文中提出：让模型一次性输出未来几十个动作的完整序列，从而大幅提升动作连贯性。是 Diffusion Policy 等主流方法的核心组件。 * 恰空（Chaconne）:原是 16 世纪西班牙的三拍子舞曲，后演变为巴洛克最庄严的变奏曲式。许华哲提到的"恰空"特指巴赫《无伴奏小提琴第二组曲》BWV 1004 末乐章，约 14 分钟，是小提琴曲目里公认的精神最高峰之一。 * 《英雄交响曲》（Symphony No. 3 in E♭ major, "Eroica"）:贝多芬 1803–1804 年创作的第三交响曲，被公认为古典主义向浪漫主义过渡的分水岭之作。贝多芬最初将其题献给拿破仑，听闻拿破仑称帝后愤而撕掉献词，改名"英雄"。全曲长约 50 分钟，规模、情感强度和结构复杂度都远超当时的交响曲传统，重新定义了交响曲这一体裁。 * D960 即舒伯特《降 B 大调钢琴奏鸣曲》： 1828 年逝世前两个月完成的最后一部钢琴奏鸣曲，约 40 分钟，弥漫着对死亡的平静凝视，被誉为"通往天国的音乐"，是钢琴文献最伟大的作品之一。 * 《荒原狼》（Der Steppenwolf）：诺贝尔文学奖得主赫曼·卡尔·黑塞 1927 年出版的长篇小说，与《悉达多》《德米安》并称黑塞代表作，讲述一个自认半人半狼、与中产阶级世界格格不入的知识分子的精神危机与觉醒，是 20 世纪关于孤独与异化的经典之作。 🎵 【音乐】 Jordan Critz - Beau Et Rapide (Piano) 《英雄交响曲》（Symphony No. 3 in E♭ major, "Eroica"）第一乐章 🎤 【创作团队】主持｜张津剑出品｜绿洲资本剪辑制作｜绿洲资本 💬 【互动时刻】小助理微信：VB20240606 你对自己的形状有没有感知？你有什么很好的方法，能让自己平静下来更好地倾听到自己的信号？欢迎评论区留言，发布 7 日后点赞前 3 的小伙伴，我们准备了专属绿洲小礼物🎁 免责声明本播客所述投资相关内容皆以交流分享为目的，仅供参考，不构成任何市场预测、判断，或投资、咨询建议。感谢您对原创内容的青睐！如转载或引用本播客所述内容，请注明出处。转载前请与绿洲联系并取得同意。

93分钟

1k+

1个月前

E12.高阳：会思考的芦苇，会行动的机器｜北坡计划

信号与噪声

🎙️ 【本期简介】开年以来，千寻智能（SpiritAI）已接连完成两轮融资，总额近 30 亿。具身智能正在快速成为资本与市场的共识。当新的热点与叙事不断涌现，高阳的关注点却不在外部变化，而始终落在内部同一命题上：如果要实现具身智能的通用基础模型，下一步面临的问题会是什么？如何把问题真正解决？北坡计划第一期，我们邀请了千寻智能联合创始人、清华大学助理教授高阳，围绕具身智能即将进入的“GPT-3 时刻”展开讨论。从数据、模型到系统能力，拆解这一判断背后的技术前提与未来展望；我们也把问题拉回个体，高阳是我们所有受邀嘉宾中，语速最慢的。他说：人不过是会思考的芦苇，不疾不徐，不试图成为某种“标准答案”，而是在外部价值选择与个体快乐之间不断回到自身，坚持内在节奏，展开属于自己的生命力。 👤 【嘉宾介绍】高阳：千寻智能联合创始人兼首席科学家，清华大学交叉信息研究院助理教授。本硕毕业于清华大学，博士毕业于加州大学伯克利分校（UC Berkeley）。他是全球具身智能与视觉-语言-动作模型（VLA）领域的顶尖青年学者。 🕒 【精选时间戳】 04:34 24 年初谈具身大模型，连学生都不信 07:15 ChatGPT 出来那一刻，他在伯克利的 AI 价值观被重塑了 08:37 既然大语言这条路走通了，具身智能为什么不行？ 13:11 两年前预测要 5–8 年，现在的判断提前到了 27 年 17:52 一千万小时的数据，6000 个人，几个月。这件事中国有经验 29:42 评价一个具身模型，今天最重要的指标只有一个：泛化性 32:48 同门师兄弟 Sergey 和他，技术路径上的一致与分歧 39:26 未来的机器人是一个"多频谱"系统 48:36 如果有长生不老药，还会做一辈子机器人吗？ 01:06:31 给科学家创业者：什么是信号，什么是噪声？ 01:08:34 老子的"俭"不是节俭，是不耗散 01:11:32 ”价值还是快乐？我选择快乐“ 📚 【相关提及】（这次有点多，但都很有价值）关于技术： * Scaling Law：缩放定律（OpenAI 于 2019 年提出）。指模型性能会随计算量和数据的增加而规律性提升，具身智能正在探索其在物理数据上的边界。 * VLA (Vision-Language-Action)：视觉-语言-动作模型。一种端到端的具身智能架构，能让机器人“看懂”环境、“听懂”指令并直接输出物理动作。 * World Model：世界模型。能够理解并预测物理世界下一个状态的 AI 模型，未来有望在仿真环境中生成海量机器人训练数据。 * 遥操：远程操作（Teleoperation）。指人类通过设备远程控制机器人完成动作，当前市面上部分看似智能的机器人演示实则依赖此技术。 * Locomotion：运动控制。机器人的底层移动与平衡能力，控制频率极高，类似于生物的本能反射。 * Transformer：目前大模型通用的底层架构。它像是一个高度灵敏的“注意力转换器”，能够捕捉数据序列中跨度极大的关联信息，是 ChatGPT 和具身智能大脑的共同基石。 * 端到端 (End-to-End)：一种“直达”的技术方案。指模型直接从原始输入（如摄像头画面）输出到最终结果（如机械臂动作），中间不经过人为设定的繁琐规则，让机器自己学习其中的映射规律。 * 泛化性 (Generalization)：衡量具身智能含金量的核心指标。指 AI 在面对从没见过的环境或任务时，依然能表现出正确判断的能力，而不是只能机械地重复在实验室里练好的动作。 * Universal Function Approximator：通用函数拟合器。神经网络的基础数学理论，指拥有隐层的神经网络可以拟合世界上任何连续函数。 * CRISPR ：基因编辑技术。节目中借此畅想未来人类可能通过修改基因大幅延长寿命的极端科幻场景。 * PR2 (PR two)：一款经典的双臂科研机器人，是早期学者进行机器人抓取与控制实验的重要平台。关于公司： * Generalist：全球具身智能前沿的初创公司，在真实物理世界的数据收集量上处于行业领先地位。4月2日最新发布的Demo，已宣称拥有 50w 小时数据。 * Physical Intelligence (PI)：美国顶尖的具身智能初创公司，强调具身智能模型“通用性”。 * World Labs：由李飞飞创立的 AI 初创公司，正转型投入具身智能与“空间智能”的研发。 * AMI Labs：Yann LeCun 创办，致力于探索更具通用性的人工智能架构。关于人： * Sergey Levine：加州大学伯克利分校教授、Physical Intelligence 联合创始人，被高阳形容为机器人领域的“活体维基百科”。 * Peter Thiel：彼得·蒂尔。硅谷著名投资人、PayPal联合创始人，也是著名的《从零到一》作者。 * Jitendra Malik：加州大学伯克利分校计算机视觉泰斗。他关于“动物为什么需要视觉”的进化论视角，启发了高阳转向机器人领域的研究。 * 吴翼：清华大学交叉信息研究院的杰出青年学者，蚂蚁集团强化学习实验室首席科学家，负责大模型强化学习方向研究。 * 许华哲：清华大学交叉信息研究院助理教授，高阳在伯克利实验室时期的学术同门。研究聚焦具身人工智能的理论、算法与应用，深度强化学习与机器人学等。 * 李飞飞：斯坦福大学教授，计算机视觉领域的先驱，ImageNet 发起者，World Labs 创始人。 * LeCun：杨立昆（Yann LeCun），深度学习三巨头之一，图灵奖得主。关于理念： * 会思考的芦苇：源自法国哲学家帕斯卡尔的隐喻。指人类在肉体上像芦苇一样脆弱，但因为拥有独立的偏好与思考能力，从而具备了不可替代的特殊价值。 * 老子的“三宝”：出自《道德经》的“一曰慈，二曰俭，三曰不敢为天下先”。节目中特指“俭”，意为不耗散自己的心力与欲望。 🎵 【音乐】 Jordan Critz - Beau Et Rapide (Piano) 🎤 【创作团队】主持｜张津剑出品｜绿洲资本剪辑制作｜声度 Studio 播客工作室 💬 【互动时刻】小助理微信：VB20240606 如果在你面前有两个选择：一件是世俗意义上具有巨大“价值”但让你痛苦的事，另一件是让你发自内心“快乐”但看似无用的事，你会怎么选？欢迎留言评论！我们将为评论区最高点赞的 3 位听友，赠送高阳播客结尾所说的绿洲小书一本。免责声明本播客所述投资相关内容皆以交流分享为目的，仅供参考，不构成任何市场预测、判断，或投资、咨询建议。感谢您对原创内容的青睐！如转载或引用本播客所述内容，请注明出处。转载前请与绿洲联系并取得同意。

88分钟

6k+

2个月前

特别季：北坡计划

信号与噪声

攀登珠穆朗玛峰理论上有两条路，一条南坡，一条北坡。比起南坡的平缓，北坡是那条更艰险、更充满未知的道路，像极了通往 AGI 的攀爬过程中，具身智能科学家们正在摸索的道路。过去 10 个月，我们邀请了 8 位绿洲的好朋友，通过对话之间的自然流淌，展现他们的世界观、生命观，他们在 AI 时代的信号与噪声。 2026 年即将开启的特别季，我们将对话 10 位在具身领域有全球影响力的科学家、Researcher、创业者，分享他们世界观、生命观之余，呈现这些人在行动过程中，所面临的艰险当下与眼中的闪耀未来。依旧希望这一季，能够继续与各位听友，以心印心，参赞生命力。🌳 注：本期节选自绿洲与投中网的对话内容。完整版指路 👉投中网出品播客《大北窑 14F》 🎵 【音乐】 Jordan Critz - Beau Et Rapide (Piano) 🎤 【创作团队】对话｜张津剑、蒲凡（投中网编辑）出品｜绿洲资本、投中网剪辑制作｜声度 Studio 播客工作室 💬 【互动时刻】欢迎添加小助手微信，进群参与讨论：VB20240606 如果未来机器人真正进入生活，你会畅想它能够帮你解决什么生活中的难题？留言与我们分享吧

21分钟

1k+

3个月前

E11.王鹏：狩猎人生

信号与噪声

🎙️ 【本期简介】人们在博弈中追求“射击”快感，而 Inatai Foundation 首席投资官王鹏先生，选择在荒原与市场的交叉点上，完成一场关于人生的“狩猎” 。从物理学学生到掌管百亿规模的 CIO，王鹏构建了一套极具个体色彩的底层逻辑。他曾在阿拉斯加 40 迈的飓风中枯坐五天只为等待棕熊出现，也曾在 2023 年市场极度悲观的噪声中，守住 20% 的逆向仓位。对他而言，大重量健身、极地狩猎与复杂投资决策，本质上都是一场名为“练神经”的修行。只有在生理与心理的极致磨砺（Suffer）中，通过审美与纪律，过滤掉诱人却平庸的信号，才能在面对那只“The Deer”时，平静地扣动扳机。本期对话中，我们试图理解一位职业投资者是如何塑造他的思维系统。王鹏分享了他在极端环境下习得的“狩猎审美”：为了寻找真正符合标准的投资机会，必须具备忍受长期颗粒无收的底气。这种定力并非源于宏大叙事，而是来自爬火山时“看脚下而非看山顶”的微观哲学：在不确定性中通过微小的正反馈找回主体性，将目的、原因与过程融为一体。在智力被大规模让渡给 AI 的时代，他依然坚持对“为什么（Why）”的追问与“责任感（Accountability）”的担当，认为这才是人最后不可逾越的护城河。 “你要看自己脚下的印记。” 在这个充满噪声的时代，王鹏提供了一种活法：在自己设计的系统里，迭代生长。 👤 【嘉宾介绍】王鹏，Inatai Foundation 首席投资官（CIO），长期从事机构资产配置与风险管理，拥有近二十年投资经验，是美国机构投资界稀缺的华裔领军人物。曾先后在《投资组合管理杂志》（Journal of Portfolio Management）、《金融分析师杂志》（Financial Analyst Journal）等顶级期刊发表多篇金融分析论文，并荣获格雷厄姆-多德卓越奖（Graham and Dodd Award of Excellence）。投资人身份之外，他也是一名资深猎人、摄影师，长期在自然与荒野中磨炼判断力与耐心，独立摄影作品曾收录进全球知名旅行指南《孤独星球》。 🕒 【精选时间戳】 02:30 练神经：为何大重量训练是在重塑神经而非练肌肉？ 06:24 审美心法：投资是艺术而非科学，是审美、纪律与“无我”的平衡 08:57 逆向定力：2023 年市场噪声巨多时，在 20% 高仓位下守住长线 11:18 阴阳之内：投资信仰不是虚无，理解“阴在阳之内”的转机逻辑 14:22 市场环保：美国火鸡案例：如何用“商品价值”拯救濒危物种？ 21:37 系统工程：顶级狩猎不只是开枪，是包含研究、迂回与决策的系统 33:53 活在当下：在 40 迈寒风中坐 5 天，生理痛苦（Suffer）是一种荣幸？ 47:20 职业性格：高压决策者的共性：为什么猎人更适合处理生死危机？ 58:46 登顶隐喻：爬火山时为何“看脚下，不看山顶”？对抗虚无的正反馈设计 01:06:50 理性跨越：从物理学徒到 CIO，理解“原子无感情，但团队有” 01:12:07 人的价值：AI 时代，人依然不可替代的三个底牌：审美、纪律与耐心 01:25:29 评价标尺：不以猎物（结果）论英雄，只以分析过程为标尺 📚 【相关提及】渐进式超负荷（Progressive Overload）健身术语，力量训练的核心生理学原则，指通过逐渐增加训练负荷（重量、频率等）来持续刺激身体增长，节目中以此类比个体认知的进化，强调通过可量化的微小增量（Progress）来构建持续的成长正反馈。 16+8 间歇性断食（Intermittent Fasting）一种进食管理方式，核心是将每日进食窗口限制在 8 小时内，余下 16 小时仅摄入无热量液体。其生理机制在于通过延长空腹时间来优化胰岛素敏感性并促进代谢切换。 NWTF（国家火鸡联合会）美国国家野生火鸡联合会，是“北美野生动物保护模式”的典型代表，核心逻辑是“保护即利用”。通过市场化手段（如出售许可牌照）获取资金并反哺于栖息地修复，解决了单一财政拨款无法覆盖的生态平衡问题。阴在阳之内，不在阳之对出自《三十六计》秘本兵法，揭示了中国古典辩证法的核心：对立的双方（如风险与机遇）并非彼此孤立，而是深度交织、互为前提。以此解读市场极端波动时的投资心理，即剧烈的风险中往往包含着最纯净的机会信号。推荐书籍：《终身成长》MINDSET: The New Psychology Of Success 美国斯坦福大学心理学教授，卡罗尔·德韦克（Carol Dweck）创作于 2006 年的心理学著作。该书基于作者数十年研究，提出固定型思维模式与成长型思维模式的核心理论，固定型思维认为能力是固有不变的，成长型思维认为智力可通过努力提升。 Contrarian Investing（逆向投资）在市场情绪极端时采取相反方向的投资策略。核心在于识别群体性偏见与价格失真，通过独立判断获取风险溢价。 Growth Mindset（成长型思维）由心理学家 Carol Dweck 提出。强调能力可以通过努力与学习不断提升。心理学家 Carol Dweck 提出的概念。强调能力可以通过持续练习与反馈不断提升，重视过程与长期积累。 Long-termism（长期主义）以多年甚至跨周期为时间维度进行决策与资源配置，关注结构性趋势与复利效应。 Asset Allocation（资产配置）通过配置不同资产类别（股票、债券、现金、另类资产等）来分散风险，平衡收益波动，是机构投资的核心方法。 Macro Cycle（宏观周期）经济扩张与收缩的阶段性变化，包括利率、通胀、产业结构与流动性环境的波动。 Accountability（决策责任制）知识论中的责任追踪原则。王鹏强调决策不应是不可解释的“黑盒”，必须能够拆解出决策时的原始逻辑依据（Why）。用于区分“随机的运气（Luck）”与“可重复的技能（Skill）”，确保投资体系的可进化性。 🎵 【音乐】 Jordan Critz - Beau Et Rapide (Piano) 🎤 【创作团队】主持｜张津剑出品｜绿洲资本剪辑制作｜声度 Studio 播客工作室 💬 【互动时刻】如果投资是一场打猎——你现在是在追兔子，还是在等 The deer？欢迎留言说说：你做过最“逆人性”的一次决策是什么？后来结果如何？免责声明本播客所述投资相关内容皆以交流分享为目的，仅供参考，不构成任何市场预测、判断，或投资、咨询建议。感谢您对本播客原创内容的青睐！如转载或引用本播客所述内容，请注明出处。转载前请与绿洲联系并取得同意。

90分钟

6k+

4个月前