
时长:
114分钟
播放:
1.69万
发布:
2周前
简介...
「一个登月时刻?」
今天的嘉宾,是 106 期曾做客《晚点聊》的真格基金管理合伙人戴雨森。这期节目分两次录制,一次是在上周,在 2025 年年中的复盘和展望时刻,我们聊了真格投资的月之暗面新鲜出炉的 K2,AI 应用普及这条大主线的变化,和近期热闹非凡的抢人大战。
一次是在今天(7月21日)下午。我们补充聊了刚刚发生的新进展:OpenAI 在上周五发(7月18日)布了ChatGPT Agent,更重要的是,这个周末(7月19日),OpenAI 又宣布用一个未公开的通用大语言模型,第一次达到了 IMO国际奥赛金牌水准。这之前,只有 Google DeepMind 针对数学专门做优化的模型达到过银牌水平。
2 年半前,曾写下《通用人工智能的火花》的现 OpenAI 研究员 Sébastien Bubeck 形容,这(通用大语言模型拿下IMO金牌)最终可能会成为一个登月级别的进展。
已持续两年多的AI竞速没有放缓,模型能力与应用创新交替上升,而两者的进化速度,可能都在被低估。
本期主播:程曼祺,《晚点 LatePost》科技报道负责人
本期嘉宾:戴雨森,真格基金管理合伙人,*投资了 Kimi(月之暗面)、与爱为舞、无问芯穹、Genspark *等 AI 项目。
时间线跳转:
-OpenAI 拿下 IMO 金牌,又一个李世石时刻
01:06 OpenAI 新模型拿下 IMO 金牌:首个到这一水平的通用 LLM、强化学习也能处理难判别任务、Google 也做到了?
图注:Jason Wei 博文中“验证的非对称性”图示,落在红色斜线下方的任务更容易被 AI 全自动化地完成。
14:38 抢人大战后,Meta 谁都不服谁的情况可能更严重
16:31 ChatGPT Agent 不惊艳,但别低估它;“壳”的价值在于 context
-再谈 AI 应用普及:最重要的、被高估的、被低估的
27:39 总要进展:Coding 和推理能力持续提升、Agent 形态有了初步共识、多模态更实用了
图注:OpenAI 研究院、强化学习专家 Noam Brown 发 Twitter 提到,拿到 IMO 金牌的模型与 Multi Agent 有关。
33:59 机器人进厂打螺丝的速度,被高估了;应用(壳)的价值、优秀团队的韧性、模型进展速度被低估了
40:53 从 All in AI 到外卖大战?
-不同公司,走向各自的未来
42:37 DeepSeek R2,等待新基模
43:43 字节 Seed 组织的进一步分工:Edge、Focus、Base
46:39 K2,Kimi 的乔戈里峰
图注:7月22日 OpenRouter 编程类目模型调用,K2 已从上周二发布第 4 天时的第 10 上升到第 5。
58:32 技术排位变化:Google is back、ChatGPT 更强化超级应用、Anthropic 也自己“造壳”
-应用的生长
01:15:23 雇佣 AI——1个月 1000 美元的 AI 订阅费
01:23:19 Agent 的应用进展需要新的 L3 模型
01:30:22 在硅谷,对创业产品的像素级模仿为何较少发生
-新的提问
01:35:35 持续好奇:如何衡量智能的边界?
01:38:00 灰犀牛:当个人有了大量生产力,怎么处理效率 vs 公平?
01:43:31 未来几个月想验证的悬念?——L3 模型如何到来
01:48:37 一款契合 AI 创业者的游戏《33 号远征队》
相关链接:
晚点聊 106 期:与真格戴雨森长聊 Agent:各行业都会遭遇“李世石时刻”,Attention is not all you need
晚点聊 110 期:与明势夏令聊Agent竞争:通用入口之战就要来,创业要做垂、做专
晚点聊 103 期:用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进
Context Engineering for AI Agents: Lessons from Building Manus 《AI Agent 的上下文工程:从构造 Manus 中学到的》(Manus 联创季逸超近期发布的 Context Engineering 文章)
Sparks of Artificial General Intelligence: Early experiments with GPT-4《通用人工智能的火花:GPT-4 的早期实验》
Asymmetry of verification and verifier’s law《验证的不对称性和验证者法则》(Jason Wei 近期博文)
剪辑制作:甜食、Nick
本期主播:
小红书@曼祺_火柴Q即刻@曼祺_火柴Q
☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
今天的嘉宾,是 106 期曾做客《晚点聊》的真格基金管理合伙人戴雨森。这期节目分两次录制,一次是在上周,在 2025 年年中的复盘和展望时刻,我们聊了真格投资的月之暗面新鲜出炉的 K2,AI 应用普及这条大主线的变化,和近期热闹非凡的抢人大战。
一次是在今天(7月21日)下午。我们补充聊了刚刚发生的新进展:OpenAI 在上周五发(7月18日)布了ChatGPT Agent,更重要的是,这个周末(7月19日),OpenAI 又宣布用一个未公开的通用大语言模型,第一次达到了 IMO国际奥赛金牌水准。这之前,只有 Google DeepMind 针对数学专门做优化的模型达到过银牌水平。
2 年半前,曾写下《通用人工智能的火花》的现 OpenAI 研究员 Sébastien Bubeck 形容,这(通用大语言模型拿下IMO金牌)最终可能会成为一个登月级别的进展。
已持续两年多的AI竞速没有放缓,模型能力与应用创新交替上升,而两者的进化速度,可能都在被低估。
本期主播:程曼祺,《晚点 LatePost》科技报道负责人
本期嘉宾:戴雨森,真格基金管理合伙人,*投资了 Kimi(月之暗面)、与爱为舞、无问芯穹、Genspark *等 AI 项目。
时间线跳转:
-OpenAI 拿下 IMO 金牌,又一个李世石时刻
01:06 OpenAI 新模型拿下 IMO 金牌:首个到这一水平的通用 LLM、强化学习也能处理难判别任务、Google 也做到了?
图注:Jason Wei 博文中“验证的非对称性”图示,落在红色斜线下方的任务更容易被 AI 全自动化地完成。
14:38 抢人大战后,Meta 谁都不服谁的情况可能更严重
16:31 ChatGPT Agent 不惊艳,但别低估它;“壳”的价值在于 context
-再谈 AI 应用普及:最重要的、被高估的、被低估的
27:39 总要进展:Coding 和推理能力持续提升、Agent 形态有了初步共识、多模态更实用了
图注:OpenAI 研究院、强化学习专家 Noam Brown 发 Twitter 提到,拿到 IMO 金牌的模型与 Multi Agent 有关。
33:59 机器人进厂打螺丝的速度,被高估了;应用(壳)的价值、优秀团队的韧性、模型进展速度被低估了
40:53 从 All in AI 到外卖大战?
-不同公司,走向各自的未来
42:37 DeepSeek R2,等待新基模
43:43 字节 Seed 组织的进一步分工:Edge、Focus、Base
46:39 K2,Kimi 的乔戈里峰
图注:7月22日 OpenRouter 编程类目模型调用,K2 已从上周二发布第 4 天时的第 10 上升到第 5。
58:32 技术排位变化:Google is back、ChatGPT 更强化超级应用、Anthropic 也自己“造壳”
-应用的生长
01:15:23 雇佣 AI——1个月 1000 美元的 AI 订阅费
01:23:19 Agent 的应用进展需要新的 L3 模型
01:30:22 在硅谷,对创业产品的像素级模仿为何较少发生
-新的提问
01:35:35 持续好奇:如何衡量智能的边界?
01:38:00 灰犀牛:当个人有了大量生产力,怎么处理效率 vs 公平?
01:43:31 未来几个月想验证的悬念?——L3 模型如何到来
01:48:37 一款契合 AI 创业者的游戏《33 号远征队》
相关链接:
晚点聊 106 期:与真格戴雨森长聊 Agent:各行业都会遭遇“李世石时刻”,Attention is not all you need
晚点聊 110 期:与明势夏令聊Agent竞争:通用入口之战就要来,创业要做垂、做专
晚点聊 103 期:用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进
Context Engineering for AI Agents: Lessons from Building Manus 《AI Agent 的上下文工程:从构造 Manus 中学到的》(Manus 联创季逸超近期发布的 Context Engineering 文章)
Sparks of Artificial General Intelligence: Early experiments with GPT-4《通用人工智能的火花:GPT-4 的早期实验》
Asymmetry of verification and verifier’s law《验证的不对称性和验证者法则》(Jason Wei 近期博文)
剪辑制作:甜食、Nick
本期主播:
小红书@曼祺_火柴Q即刻@曼祺_火柴Q
☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
评价...
空空如也
小宇宙热门评论...
ima君
2周前
福建
15
雨森肯定比谁都急moonshot 啊,毕竟他投了🤣
曼祺_MatchQ
2周前
北京
9
08:32 收到一个有意思的反馈,认为 AI 的最大价值不一定是替代人的重复性工作,因为“人需要简单、重复的劳动带来的确定性,以保持幸福感。”
这(简单劳动的幸福感)很准确地说出了一个我体验过、感受过,但未能明确表达过的东西。
多邻国不就是这样一种击中“重复的幸福”的产品吗?部分用户甚至会付钱获得“无限红星”,让自己可以更随心所欲地“重复”。
但多邻国的这种重复在意义感上还不够“重”,它是刻意寻求的,而非生存的必然或生活的自然。
更理想的状态是有挑战的创造性工作和简单、重复性工作的自然交替。
两个我印象深刻的小说片段描述了这种知识工作与简单劳动的穿插,一是《日瓦戈医生》,他在劈柴中获得了某种踏实感:
“你的双手干着繁重粗笨的活儿,当你完成给自己提出的能够胜任的任务而感到欢乐,当你在燥热的天空下连续六小时劈柴翻地时,你的头脑里闪现过多少念头。这些念头、揣测与联想不写在纸上而任其自生自灭,说起来也不算损失,而是一种收获。你这位城里的隐士只知用浓咖啡或烟草刺激麻木的神经与想象力,可你不知道最有效的麻醉剂乃是自然的需要与健壮的体魄。”
另一个是《月亮是个严厉的女人》里《拉撒路·朗笔记》中的话:
“一个人应该能够换尿布、策划入侵、屠宰猪、驾驶船只、设计建筑、写十四行诗、平衡账目、砌墙、接骨、安慰临终者、服从命令、发号施令、合作、独立行动、解方程、分析新问题、铲粪、编程、烹饪美味、有效战斗、英勇赴死。专业化是昆虫的事。”(最后一句我不同意 😄
当然,有 AI 之后我们还是可以做这些,但那就不是必须的了,也许我就需要在更高效解决生活琐事,很多时间投身创造性工作 vs 低效地漫无目的地“浪费”时间里做选择,因为我真的能选了。这会带来什么心态变化,和群体性新焦虑吗?
Baca
2周前
美国
9
赞主播的实效性 周末的新闻马上就录出来了 全网第一 ; OpenAI和奥特曼渐渐变成被主流人讨厌的另一个小扎…为了利益无视公序良俗 连孩子们的高光和热度也要抢…没人再去讨论中国队重夺第一,中美金牌基本被华裔包揽…全都去看OpenAI了
曼祺_MatchQ
2周前
上海
9
Kimi 携 K2 强势回归,OpenAI 发布 chatGPT Agent ,又在周末宣布 OpenAI 一个未公开的新模型已能拿到 IMO 金牌……看似脉冲式进步的技术变化之后,持续的主线是 AI 应用普及。继 2 月之后,我和雨森再次review了一个个李世石时刻怎么发生。
手动贴上往期关联节目,可搭配使用😄:https://www.xiaoyuzhoufm.com/episode/67cdb53f7ccfd410926b0c66
https://www.xiaoyuzhoufm.com/episode/67fd8cafcc06f8ff48a73642
https://www.xiaoyuzhoufm.com/episode/680818eb79d324fdd40c2b5e
https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399
HD598546j
2周前
英国
7
OpenAI和GDM应该都有些non-trivial的harness。毕竟第六题没做出来,说模型可以在理科上可以做出创新的解有些牵强了。 OpenAI的解法读起来有些难受,而GDM为了答案clean,可读,用了in context learning

庄明浩
2周前
上海
5
1:50:44 这个故事还有很多延展 类似matrix或者盗梦空间式的展开

Joes东
2周前
广东
5
106期质量就很高,期待这一期,先赞后听👍
曼祺_MatchQ
2周前
北京
4
更新:DeepMind 今天也发博客宣布了 IMO 金牌进展。用的应该也是通用推理模型(DeepThink 的一个加强版本)博文地址:https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/

微恙ovo
2周前
河南
4
这期节目发了不久qwen3就迎来2507更新了,benchmark超过kimi k2了
HD1021181b
2周前
上海
4
请问嘉宾介绍PPT的工具叫什么,网上没搜到
XUKAN
2周前
广西
3
无敌喜欢你们的节目,尤其是你主持的~
普诚诚
2周前
河南
2
这种纯吹自己家的。 是不是也不够客观

摸鱼的西西弗斯
1周前
北京
2
但后来IMO金牌最终的获得者还是谷歌,openai并没有出现在名单上
杨文
2周前
广东
2
42:39 戴雨森:与其喝奶茶,还不如拿来训模型!

Julia_Scott
2周前
上海
2
27:31 模型的智能提升需要最优质的数据资源,但可商业化产品服务的提升需要用户场景信息🤓
网海拾贝
1周前
浙江
1
这期感觉深度一般,当然还是感谢主持嘉宾的辛勤输出👏

老C_codedump
1周前
广东
1
我要不是最近深度使用了kimi k2,同样的问题和其它模型做过对比,还真就信了嘉宾说的“k2是目前最好的开源模型”了
小逸Louie
1周前
上海
1
1:51:56 曼祺总结的“大模型对agent的进一步吞噬”成为了我的‘aha moment’。大模型正在吞噬agent,工具以及人类的生存空间,这可能才是“泛化能力”的真正含义。英伟达不断创新高的股价,模型能力的快速提升,发生在全球的抢人大战......AI的发展似乎真的要一脚油门踩到底了。而人类,真的准备好了?
马马哥
1周前
澳大利亚
1
吹k2有些过了

柚子能不放糖么Alex
2周前
上海
1
openai越来越好玩了,从google io追上开始,到meta挖人,再到开源模型和gpt5屡次延期,有点自乱阵脚乱出招的意思
丰存翰
2周前
浙江
1
我感觉这个地方就是不要做模型能力扩张范围之内的事情,不然就会被吊打

羊小凡
2周前
美国
1
喜欢这期节目!🩷

慕容景云
2周前
广东
1
imo 真正的意义是如果用户可以用公开服务的模型解出来才是真的牛逼。内部人员在不知道用了什么 trick 的情况下,宣称解出来还被官方批评,有什么可划时代呢

生而为猫奴
2周前
广东
1
1:16:44 天呐,原来用AI可以这么壕😂长见识了

无聊的猪
2周前
江苏
1
报道一下AI做IMO题目就成了没有公序良俗?哈哈,在华裔没有全占金牌的时候算不算公序良俗?这种公序良俗不要也罢
SteveSHEN
1周前
上海
0
1:09:08 da 会在秋天 发应用

瓦尓特
1周前
河北
0
1:18:39 英伟达还能入
Sining魏
2周前
北京
0
20:25
usky_1nmp
2周前
四川
0
OpenAI的agent不行,难道不是因为底层模型不行吗🤣