张小珺Jùn|商业访谈录
努力做中国最优质的商业访谈。

Album
主播:
张小珺
出版方:
张小珺
订阅数:
123690
集数:
101
最近更新:
2周前
评分
暂无评分
0人评价
5星
0%
4星
0%
3星
0%
2星
0%
1星
0%
播客简介...
努力做中国最优质的商业访谈。 制作人张小珺曾供职《财经》杂志,现在是腾讯新闻科技主笔,一直写作关于中国商业的深度报道。范围包括科技、风险投资和知名人物报道。 也许你看过我的作品: 2024年中国AGI三部曲 《杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进》 《朱啸虎讲了一个中国现实主义AIGC故事》 《王小川想提出中国AGI第三种可能性》 抖音上下篇 《抖音内幕:时间熔炉的诞生》 《TikTok内幕:张一鸣的巨浪征途》 共享单车上下篇 《ofo剧中人:我不愿谢幕》 《穿越废墟:共享单车剧未终》 企业调查 《百度最难捱的一夜:五名高管闪电辞职内幕》 VC与时代 《风投,大转弯》 《仅仅是昨天:我们亲历的萧条、繁荣和时代》 《徐小平退后一步,方爱之向前一步:中国风投第一起交接故事》 人物报道 《王石:老人与海》 《陆奇的大模型世界观》 如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖:)
张小珺Jùn|商业访谈录的创作者...
张小珺
张小珺Jùn|商业访谈录的音频...

98. 逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”

今天的嘉宾是清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇。他的研究和创业方向都是人形机器人。 大语言模型浪潮爆发后,学界和工业界看见了机器人从专用走向通用的可能迹象,机器人革命随之而来。其中,本轮革命最重要的是,对机器人底层架构,也就是机器人“大脑”的探索。 但通用机器人还在科学研究阶段,处于产业发展早期。这集节目,陈老师将带领大家,概览式阅读机器人基座模型和当下最前沿的架构VLA架构(Vision-Language-Action Model,视觉语言动作模型)的经典论文。 希望我们的节目能直观地帮助更多人靠近科学前线,感受技术之美,并且能直观感知当前技术拐点。 还是那句话:期待2025,我们和AI共同进步! (因为因为,陈老师真的分享了很多很多的动图和视频,本集结合视频服用效果更佳噢!可以前往:含投屏的视频版本。嘿嘿!预祝你学得开心!学得顺利啦!) 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 02:30 陈建宇的研究和创业方向 04:11 讲解开始前,先提问几个小问题 17:36 当下最大变量:从专用模型到通用模型(robot foundation model)的可能性 21:12 大模型浪潮爆发后,机器人领域经历了两个阶段:从利用基础模型进行机器人研究(leveraging foundation models in robotics)到为机器人预训练基础模型(pretraining foundation models for robotics) 第一阶段:利用基础模型进行机器人研究(leveraging foundation models in robotics) 21:59 机器人传统三板块:Planning+Perception+Actuation(规划+感知+执行)——第一步,用LLM(Large Language Model,大语言模型)替代Planning 23:54 由Google Robotics团队提出的具身智能开创性论文Say Can《Do As I Can, Not As I Say: Grounding Language in Robotic Affordances》 (中文名:我能做到,而不是我说到:将语言与机器人的可供性相结合) 27:03 第二步,用VLM(Vision-Language Models,视觉语言模型)替代Perception 27:52 来自Google的论文《Inner Monologue: Embodied Reasoning through Planning with Language Models》 (中文名:内心独白:通过语言模型规划进行具身推理) 29:51 由清华和上海姚期智研究院提出的《DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment》 (中文名:DoReMi:通过检测和恢复规划-执行不一致来落地语言模型) 32:47 第三步,想把Actuation进一步自动化,用Code LM(专门用于代码相关任务的大型语言模型)来替代Actuation 32:24 由李飞飞团队提出的《VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models》 (中文名:VoxPoser:使用语言模型进行机器人操作的可组合3D价值地图) 第二阶段:为机器人预训练基础模型(pretraining foundation models for robotics) 38:36 VLA端到端模型(Vision-Language-Action Model,视觉语言动作模型)——“人是很智能的VLA Agent” 39:53 关于VLA的经典论文及分类: 40:17 Aloha论文《Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware》 (中文名:学习用低成本硬件进行精细双手操作) 47:36 Mobile Aloha论文《Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation》 (中文名:移动ALOHA:使用低成本全身远程操作学习双手移动操作) 50:15 论文《A Generalist Agent》介绍了一个名为Gato的通用型人工智能代理 (中文名:通用型代理) 52:45 RT-1论文《RT-1: Robotics Transformer for Real-World Control at Scale》 (中文名:RT-1:机器人Transformer用于大规模现实世界控制) 59:02 Octo论文《Octo: An Open-Source Generalist Robot Policy》 (中文名:Octo:一个开源的通用机器人策略) 01:02:20 CrossFormer论文《Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation》 (中文名:扩展跨具身学习:操控、导航、运动和飞行的统一策略) 01:06:58 字节跳动AI Lab的两个工作GR-1和GR-2: 《Unleashing Large-Scale Video Generative Pre-Training For Visual Robot Manipulation》(为视觉机器人操控释放大规模视频生成预训练模型) 《A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation》(用于机器人操作的网络规模知识生成视频-语言-动作模型》) 01:15:02 Palm-E论文《PaLM-E: An Embodied Multimodal Language Model》 (中文名:PaLM-E:具身多模态语言模型) 01:20:02 当前VLA最有名的开山工作:Google推出的RT-2论文《RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》 (中文名:RT-2:视觉-语言-动作模型将网络知识迁移到机器人控制中) 01:26:05 RT-X论文《Open X-Embodiment: Robotic Learning Datasets and RT-X Models》 (中文名:开放X具身:机器人学习数据集与RT-X模型) 01:31:16 《OpenVLA: An Open-Source Vision-Language-Action Model》(约等于开源版RT-2) (中文名:OpenVLA:一个开源的视觉-语言-动作模型) 01:32:56 陈建宇课题组《HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers》 (中文名:HiRT:利用分层机器人Transformer增强机器人控制) 01:38:40 Figure AI Helix,没发论文,但是今年Figure最新架构 01:39:28 Pi0论文《π₀: A Vision-Language-Action Flow Model for General Robot Control》 (中文名:π₀:一个视觉-语言-动作的流模型用于通用机器人控制) 01:41:36 英伟达最近发布的GROOT N1模型《GR00T N1: An Open Foundation Model for Generalist Humanoid Robots》 (中文名:GR00T N1:通用人形机器人的开放基础模型) 01:42:32 《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》 (中文名:扩散策略:通过动作扩散进行视觉运动策略学习) 01:47:39 清华发布的《RDT-1B: A Diffusion Foundation Model for Bimanual Manipulation》 (中文名:RDT-1B:双手操作机器人的扩散基础模型) 01:51:04 《Prediction with Action: Visual Policy Learning via Joint Denoising Process》(动作预测:通过联合去噪过程进行视觉策略学习) 和续作《Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations》(视频预测策略:一个预测视觉表征的通才机器人策略) 02:03:06 两个未来方向:《UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent》(UP-VLA:具身智能体的统一理解与预测模型) 《Improving Vision-Language-Action Model with Online Reinforcement Learning》(通过在线强化学习改进视觉-语言-动作模型) 02:09:22 最后的提问 【技术之美】系列: 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净” 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏” 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学” 【更多信息】 联络我们:微博@张小珺-Benita,小红书@张小珺 更多信息欢迎关注公众号:张小珺

149分钟
14k+
2周前

97. 25年Q1大模型季报:和广密聊当下最大非共识、AGI的主线与主峰

很多人在催更《全球大模型季报》的2025年第一集,在Q1的最后一天,终于和大家见面了! 这一集广密依然带来了信息满满的有关于全球大模型最新的的前沿认知。经历了最近几个月的全球AI格局巨变,他最大的变化是,重新坚信了Pre-training(预训练)——认为只有Pre-training才能决定模型内在的上限,涌现新能力,而Post-training+RL(后训练+强化学习)是加强。 在这一集季报中,我们对于Q1的全球明星DeepSeek、作为模型“盗火者”的Manus、OpenAI的烟雾弹、硅谷的认知分歧与价值观、未来的范式级新路线,都进行了一一讨论。更重要的是,他更新了在一位AGI原教旨主义者的眼中,AGI的主线、珠峰与路途。 希望《全球大模型季报》能持续陪伴你,2025,我们和AI共同进步! 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 04:22 Pre-training叙事卷土重来 今天最大非共识是Pre-training空间还非常大,Pre-training决定了模型内在的上限 还是要再喊一下,大家还是要重视Pre-training了,这个最本质 OpenAI现在不那么重视Pre-training,为什么?OpenAI的Pre-train核心团队一直挺动荡 11:56 Coding是最通用赛博世界的环境,是模型的手 我对两年内实现AGI有前所未有的信心 Coding意义不在于编程本身,而在于Coding是数字经济GDP活动最重要的环境,是最通用的赛博世界的环境 Coding是比搜索引擎和推荐引擎重要的东西 19:55 OpenAI vs Anthropic:战略是不同组织能力的表达 OpenAI和Anthropic同宗同源,最开始路线一样,但走着走着,核心战略bet或路线已经发生了分化 OpenAI是frontier team做出了O系列,frontier team的老大Mark Chen现在成为了仅次于Sam/Greg的三号人物 硅谷的认知分歧?这个问题本质是:智能重要,还是流量重要? 我有点担心OpenAI过早的走向一家消费互联网公司 30:18 一位AGI原教旨主义眼中的AGI roadmap(路线图) 智能提升是唯一主线,智能本身就是最大应用 今天回头看,ChatGPT只是这座高山山脚的第一站,后面还有很多个山头:Coding、Coding Agent、General Agent、AI for Science、Robotics ChatGPT只是前菜,接下来Agent才是正餐 今天还是围绕智能主线,最重要的是push智能能力往上走,做应用的要构建一个环境或容器,承接研究溢出的智能红利 文生图有可能是OpenAI烟雾弹 今天做Robotics Foundation model/Research的做法不够本质 26/27年可能是AI for Science爆发的时间点 43:00 智能的本质是什么? 这是个极好的问题——大家有想法可以打在评论区:) 人类进化就3个关键词:1. 生存,2. 探索,3. 自动化 智能进步的衡量标志是什么? 一个Chatbot对话可能消耗几千个Token,一个Perplexity搜索大概几十K Token,但一个Manus平均可能要70-80万个Token 48:03 Agent是新物种 “智能水平离AGI越近,可能就越像宇宙大爆炸” Agent落地最关键的3个能力:1. Long Context reasoning, 2. Tool use, 3. Instruction following指令遵循 AGI接下来的milestone是long-term memory,这个会取代long context 55:49 未来范式级的路线,可能Online Learning是一个 如果说未来还有范式级的路线,可能Online Learning是一个,让模型可以在线自主探索并学习 对GPU或者英伟达叙事影响有多大? 怎么看待贾扬清的公司(Lepton AI)被卖掉?英伟达在下一盘什么大棋? 01:02:45 模型与产品的关系、壁垒和商业模式 今天定价为什么20美元,是copy SaaS的定价吗?但SaaS不会消耗大量token 裸模型发布的时代即将结束?形成壁垒主要是两个:一是成为Cloud,OpenAI自己变成微软的Azure Cloud;二是成为OS,要有生态,后面打造新的Operating System 投资人怎么投AI应用? 模型长期会把产品吃掉吗?本质是,feature system vs Learning system哪个更快 Perplexity/Cursor/Manus都是“模型的盗火者” 01:15:11 全球大模型公司竞争格局和全球AI产品公司 GPT-4.5算不算领先?GPT-5为什么一直在跳票?OpenAI有没有失败的风险? 怎么看待OpenAI支持了Anthropic的MCP协议?OpenAI和微软为什么会有裂痕?分家对微软影响多大? Manus vs Perplexity,都是执行力很强的团队,被称作“套壳之王” 理想的投资组合:25% Anthropic, 25% Bytedance, 10% OpenAI, 10% Mira Thinking Machine Lab, 5% SSI, 5% Cursor, 5% Manus, 另外15%还没想好 如果DeepSeek融资,我会放基金的25% 01:54:32中美格局:如何跨越地缘封锁 科技投资不是靠“混”能混出结果的,很多VC investor到处混圈子,其实没意义,还是得靠“创造” 【全球大模型季报】系列 2023年:口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观 2024年Q1:和广密聊AGI大基建时代:电+芯片=产出智能 2024年Q2:口述全球大模型这半年:Perplexity突然火爆和尚未爆发的AI应用生态 2024年Q3:AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL 2024年Q4:大模型季报年终特辑:和广密预言LLM产品超越Google之路 【免责声明】 单纯内容分享,不作为投资建议。 【更多信息】 联络我们:微博@张小珺-Benita,小红书@张小珺 更多信息欢迎关注公众号:张小珺

121分钟
39k+
3周前

96. 和郎咸朋聊,自动驾驶10年演进史、关键技术细节和特斯拉

今天发布的是和理想汽车自动驾驶研发副总裁郎咸朋的聊天。本次访谈发生在2024年12月,和我们之前发布的《对李想的3小时访谈》在同一时期进行。 郎咸朋13-18年在百度做自动驾驶,18年加入理想,过去10年都在中国的自动驾驶领域。他以亲历者的视角聊了自动驾驶10年演进史,详解了其中的关键节点和技术细节。这次谈话更像是对自动驾驶的一次技术科普。我觉得我们聊的还不错,所以决定分享给大家。 (因为访谈发生在去年,如果大家听到今年,指的是24年;如果听到去年,指的是23年。) 期待2025,我们和AI共同进步! 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 01:32 10年前的自动驾驶当成有轨电车研发,现在看起来很可笑 04:30 2018年,从高精地图+激光雷达到BEV+Transformer,Tesla是标杆 12:07 当年激光雷达50-60万/台,早期百度/Cruise一辆车7-8个激光雷达,传感器成本远高于这辆车(当时我们在百度,一辆车500万人民币) 13:09 为什么特斯拉要用视觉解决问题?为什么自己造芯片? 15:16 特斯拉一辆车的传感器+芯片成本?一辆车有几个芯片? 20:06 特斯拉总在用“升维”方式解决问题 25:06 激光雷达和camera解决方案区别 28:46 端到端、“我们以前做自动驾驶都做错了” 41:14 我的工作经历:13-18年在百度,18年开始在理想 50:50 “L3不是L2的延长,而是L4的先导” 01:15:15 端到端是最典型的强化学习,端到端+VLM+世界模型是RL架构 01:26:40 2024年3月李想对智驾团队发火 01:32:23 “卫城”项目:“他就觉得你一定要跪下来求他”“老子就算死也要站着死” 01:35:51 想过职业生涯栽在这儿吗?李想脾气不太好? 【从蒸汽机到无人驾驶】系列 对李想的3小时访谈(播客版):宅男、AI、家庭、游戏和天梯 和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊 和楼天城聊聊Robotaxi和ACRush:“L2做得越厉害,离L4越远” 从蒸汽机到无人驾驶3|和孟醒聊特斯拉FSD进化史 从蒸汽机到无人驾驶4|Waymo和它的对手们:我暗中考察了四个月 【更多信息】 联络我们:微博@张小珺-Benita,小红书@张小珺 更多信息欢迎关注公众号:张小珺

120分钟
28k+
1个月前

95. 对Manus创始人肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量

今天的嘉宾是肖弘(小红/小宏),一名AI应用创业者。 我们从去年在不同时期进行谈话,可以算是展开了一场“接力式访谈”。 大模型的模型能力还在迅速变化,身处其中的创业者要不断根据外部环境身段柔软地时时调整姿势。《商业访谈录》希望记录一名AI应用创业者,在技术变革之中、当一切都处于不稳定状态下的持续思考历程。而这个历程富有魅力之处就在于,它是变化的,而且还会继续变化。 我们正在开启的2025可能会是AI应用爆发的元年、Agent爆发的元年,这集节目正是来自一线“AI应用爆发”、“Agent爆发”的前沿声音。 肖弘提供了一种身处浪花中创业者的心态:“世界不是线性外推的,要让自己成为博弈中的重要变量。” 期待2025,我们和AI共同进步! 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 第一次访谈发生在2024年秋天,彼时小红刚完成一轮融资。(提醒大家注意的是,第一次访谈中,当我们说到今年、去年这些词语的时候,可能脑海里需要转化一下——“去年”指的是2023年,“今年”指的是2024年) 03:03 开始的快问快答 05:15 连续创业者、第一段创业、沮丧时刻、不同年龄段毕业生的最优选 17:04 已经把大学赚的钱花完了,山穷水尽 33:16 “VC是很贵的集资手段”,它的贵不体现在你不好的时候,而是体现在好的时候 42:10 最重要的转折点:预判大厂的预判、《大空头》、等待、诱惑 52:27 每次觉得自己技能点还可以的时候,就会冒出一个新维度——这次是资本 56:19 嗅到泡沫的味道 58:15 卖过公司founder的生活和心态、“让你的生活状态变得昂贵是更昂贵的” 01:05:55 第二段创业的第一款产品:浏览器插件、Monica.im、ChatGPT for Google 01:28:04 从2022年底创业开始每年重要的决策 01:48:38 有模型 vs 没模型,“贸工技”vs“技工贸”,“模型是技术平权” 02:02:14 我脑海中大模型应用的分类和方法论:主场景补充、模型能力带来的变化、模型能力在特定领域的外溢 第二次访谈发生在2025年春节后,此时DeepSeek一时间改写了中国AI应用底层生态,我们坐下来又聊了一次。这次话题主要围绕他即将要发布的Agent产品(Manus,但当时还没上线),他讲述了对新产品的完整思考过程。 02:09:32 2025年春节真是梦回2023年呐! 02:10:09 我尝试把火过的AI应用作为少量数据点,总结规律做预测 02:20:00 开源一个AI创业idea:预判大模型的下一个能力是什么,先做好应用,在那里等着 02:21:01 大模型原厂做什么 vs 应用公司做什么 02:23:51 DeepSeek最佛却取得最好结果,精神上给了大家鼓励:BE YOURSELF!! 02:26:27 从产品角度解析为什么DeepSeek全球爆火,而OpenAI o1遗憾错过 (02:29:00-02:29:44 注:这里有几处口误,不是Perplexity而是DeepSeek) 02:31:12 对即将要发布的新产品的完整思考:国内Agent的第一枪! 02:47:49 这几天正在经历“A-ha moment”,真的觉得在制造生命一样的东西 02:49:27 在一切都不稳固的状态下,AI应用创业者应该保持什么心态? 02:51:36 大厂能理解你的创新的时候就是很危险的时候 02:58:24 用时代的年龄思考,而不是用生理的年龄思考 03:01:02 我让DeepSeek解释“贪、嗔、痴” 03:01:53 为什么不做底层模型? 03:04:39 Peak Ji(Manus首席科学家)问黄仁勋:接下来几年什么事情发生会让你觉得很惊讶?黄仁勋的回答:Basically nothing。 03:09:08 Founder是没得选的 03:12:20 Founder应该用“博弈的方式”思考,而不是用“逻辑推理的方式”思考 03:15:00 一位founder的生活和对世界的认知 03:17:50 最后的快问快答 【更多信息】 联络我们:微博@张小珺-Benita,小红书@张小珺 更多信息欢迎关注公众号:张小珺

202分钟
12w+
1个月前
张小珺Jùn|商业访谈录的评价...

空空如也

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧