节目 - EarsOnMe - 精选播客，一听即合

#568. Transformer辩论：如何理解下一代智能之争

📝 本期播客简介本期我们克隆了：Pathway《Transformer vs Post-Transformer | ft. Lukasz Kaiser, Adrian Kosowski, Mathias Lechner, & Llion Jones》这是一场以“拳击赛”形式呈现的 AI 架构思想对决：Transformer 还会继续统治下一代 AI，还是我们已经站在 postTransformer 时代的门口？辩论的一边，是 Transformer 共同发明者 Lukasz Kaiser，他认为 Transformer 虽然简单得近乎疯狂，却已经证明自己能够工作、能够扩展，并且可以被理解为一种强大的可微分记忆系统。另一边，Adrian Kosowski 和 Llion Jones 则认为，Transformer 只是智能的一种实现形式，而不是智能的终极答案。人脑的数据效率、连续学习、非语言推理和动态状态，都在提醒我们：一定还存在更好的东西。Mathias Lechner 则代表更工程化的中间路线：未来可能不是 Transformer 或 postTransformer 二选一，而是根据硬件、场景和能力需求，把所有可用 building block 组合起来。这期节目尤其适合想理解 AI 底层趋势的人：为什么 Transformer 如此强大？为什么 scaling laws 仍然重要？为什么“用语言思考”可能不是最高效的 reasoning？新架构为什么总会被硬件拖住？benchmark 到底能不能衡量真实智能？如果你关心 AI 下一轮技术红利、创业机会、算力焦虑和 AGI 路线之争，这是一场非常值得听完的高密度讨论。 👨‍⚕️ 本期嘉宾 Lukasz Kaiser，Transformer 共同发明者之一，曾参与创建 ChatGPT o1，是现代大语言模型架构演进中的关键人物。 Adrian Kosowski，Pathway 的 CSO，BDH 架构的发明者之一，主张从动态系统、latent reasoning 和持续学习角度探索 postTransformer 架构。 Mathias Lechner，Liquid AI 研究者，专注于构建新一代 foundation model，强调 Transformer 与 postTransformer building blocks 的混合使用，以及模型在不同硬件和部署场景中的实际表现。 Llion Jones，Transformer 共同发明者之一，虽然参与了 Transformer 的诞生，但在本场辩论中站在 postTransformer 阵营，认为 AI 需要跳出当前架构的局部最优。 ⏱️ 时间戳 00:00 开场 & 播客简介拳击赛开局：谁代表 AI 的下一个时代 01:43 现场规则：用拳击赛形式辩论 Transformer vs postTransformer 04:02 Lukasz 开场：Transformer 是简单、漂亮、而且真正能工作的 memory 06:40 Adrian 开场：智能还没有迎来自己的 PageRank 时刻 09:54 Mathias 开场：未来不是二选一，而是 Transformer 加 postTransformer 12:22 Llion 开场：Transformer 很强，但它可能只是 brute force 的局部最优第一轮交锋：Transformer 到底是不是终局 16:42 Lukasz 反驳：Transformer 仍是当前机器学习里最强的可扩展答案 19:00 Adrian 反击：reasoning 和 learning 不一样，语言思考不是唯一解 21:38 Mathias：Transformer 和 RNN 的边界会越来越模糊 23:33 Llion：真正突破不是重排组件，而是重新质疑神经网络假设智能是什么：语言、压缩与人脑 26:04 智能定义之争：是可观察行为，还是更深层的信息处理过程 28:30 Transformer 是否把工程便利误认为科学真理 29:08 智能即压缩：预测互联网下一个词为什么如此有效 30:02 Language 与 reasoning：语言承载智能，但也限制思考方式 31:30 发现新知识时，非语言推理是否更高效 31:52 人脑与儿童启发：为什么小孩不用长链推理也能快速泛化 Scaling 之争：算力还会继续赢吗 33:06 Bitter Lesson：为什么十倍算力和十倍数据常常打败巧妙设计 33:34 不同架构都有 scaling law，但硬件适配决定谁能赢 34:34 Lukasz：如果有比 Transformer 更好的 scaling curve，请拿出来 35:56 Adrian：数据、模型、算力不一定必须一起 scale 现实世界部署与 benchmark 36:58 非文本模态：蛋白质、基因序列和生物医学信号中的架构差异 38:05 Benchmark 会不会误导我们 39:11 Perplexity：为什么“预测下一个 token”仍可能是最硬的指标 40:57 最后陈述：比拼的关键不是单次成绩，而是 scaling curve 的斜率最终立场：Transformer 现在赢，但未来未定 41:53 Adrian：下一次突破可能来自更高效、更紧凑的 reasoning 43:08 Mathias：两边都押注，探索所有可能性 43:40 Llion：今天没有任何理由能让我放弃“还有更好东西”的信念观众提问：硬件会不会锁死创新 44:31 硬件彩票：现有 GPU/TPU 是否让大家困在 Transformer 范式 45:18 Llion：postTransformer 第一版不必马上打败 SOTA 46:12 Lukasz：Transformer 当年也不适配硬件，真正强的架构会推动硬件改变 48:38 慢 50 倍也不要怕：只要 scaling curve 更好，就值得探索学习、记忆与动态权重 48:59 智能是否首先是学习能力 50:10 In-context learning：把上下文学习延长到无限时间会怎样 51:01 Continual learning：给静态权重打补丁，还是从头设计动态系统 51:41 Transformer 的 activation 是否已经在做类似 gradient descent 的事 53:25 Transformer 不会消失：postTransformer 世界里仍会使用 Transformer 54:08 Attention weights 也是动态权重吗 55:32 经验型 context：模型是否能从自己的行动、错误和反馈中学习安全、微调与 latent reasoning 57:25 Fine-tuning、context learning 和 latent space 推理的关系 58:05 文本 chain of thought 是否真的可解释 58:58 postTransformer 是否可能更接近大脑，从而更可解释、更安全 59:13 现场投票：用欢呼声决定今晚冠军 🌟 精彩内容 💡 Transformer 的核心优势：简单到疯狂，但真的能工作 Lukasz Kaiser 为 Transformer 做出的核心辩护，不是说它完美，而是说它已经在最重要的层面证明了自己：它简单、可扩展、能被硬件放大，并且真的产生了聊天、写代码、操作电脑等能力。他把 Transformer 理解为一种 memory：为每段输入写下 key 和 value，再用 soft attention 检索相关内容。 “这个疯狂简单的机器，只是在一句话或者一段更长文本里预测下一个 token，却能够和你聊天，现在还能写代码，点击你电脑上的窗口。” 🧠 PostTransformer 的焦虑：智能还没有 PageRank 时刻 Adrian Kosowski 认为，Transformer 是智能的一种实现，但不是智能背后的共同原理。就像搜索引擎时代，PageRank 抓住了信息索引的核心机制一样，AI 领域仍然缺少一个真正解释智能的核心方程或过程。postTransformer 的意义，不是简单否定 Transformer，而是继续寻找更直接、更完整的智能机制。 “我认为，在智能这件事上，我们还没有迎来 PageRank 时刻。” 🥊 Transformer 共同发明者倒戈：我们被困在局部最优里 Llion Jones 的立场格外有意思：作为 Transformer 共同发明者之一，他却站在 postTransformer 阵营。他认为 Transformer 太成功了，反而让研究社区过度围绕它做增量改进，忽略了更根本的假设：神经网络一定要长这样吗？一定要用 backpropagation 训练吗？reasoning 一定要用语言展开吗？ “今天我没有听到任何理由，能让我怀疑自己的信念：一定还有更好的东西。” ⚙️ 硬件不是借口，但决定了谁能成为主流这场辩论反复回到一个现实问题：很多新架构也许理论上更优，但如果跑在当前硬件上慢 50 倍，就很难被接受。Lukasz 提醒大家，Transformer 当年也并不天然适配 TPU，甚至 softmax 还需要绕到 CPU 上处理。真正强的新架构，需要先证明自己有更好的 scaling curve，然后硬件自然会跟上。 “如果你给我看一个模型，它只是稳定地慢五十倍，但增长曲线更好，那你就赢了。” 📈 Scaling Laws 仍是绕不开的门槛即便 postTransformer 阵营认为还有更好的架构，大家也基本承认一个事实：任何新架构都必须面对 bitter lesson。AI 历史上，很多巧妙设计最终输给了更大算力、更大数据和更好 scaling。问题不在于要不要 scale，而在于有没有可能找到一种架构，用更少数据、更少硬件、更高效率完成同样甚至更强的能力。 “如果你给我看一条曲线，它下降得比 transformer 更陡，那我可能就得承认。” 🧩 语言不是推理的全部嘉宾们讨论了一个关键问题：当前大模型很大程度上是在语言中 reasoning，但人类的许多思考过程并不是语言化的。Llion 认为，语言承载了大量智能，所以语言模型才会成功；但语言也可能限制了模型进行发现、直觉和快速泛化的能力。postTransformer 可能需要在 latent space 中做更原生的 reasoning。 “我们强迫它们用 language 来思考，可我们自己的某些心理过程，确实不是建立在 language 上的。” 🧪 Benchmark 的核心指标也许还是 perplexity 面对各种 benchmark 被刷榜、被针对的问题，Lukasz 提出一个朴素但重要的观点：perplexity，也就是预测下一个 token 的能力，仍然是非常难被超越的指标。它本质上对应“压缩”：如果一个模型能更好地压缩文本、代码、图像或蛋白质序列，它往往也更理解这些数据。 “你越能更好地压缩互联网，你就越智能。” 🔄 Continual Learning：AI 是否需要像人一样持续更新观众提问引出了另一个核心差异：人类和生物的大脑不是冻结的，而是每一秒都在更新连接；而当前 Transformer 通常是预训练后冻结，再通过上下文、微调或外部系统补充能力。Adrian 提出，可以把 in-context learning 看成一种延长版学习：如果模型拥有无限长上下文，持续记住经验、错误和反馈，它也许就接近了持续学习。 “智能就像是把 in-context learning 延长到时间趋近于无穷。” 🛡️ Latent Reasoning 与安全：文本思维并不等于可解释关于 latent space 推理是否带来安全风险，Lukasz 提醒大家不要误以为文本 chain of thought 就完全透明。即便模型输出的是文字，文字之上仍然有大量 activation 和高维向量活动，我们并不知道里面真正发生了什么。未来模型可能说出同样的词，但内部想法已经完全不同。 “只是因为 pretraining，它们现在还算忠实。但也许有一天，你会看到模型说出同样的词，可里面的想法已经完全不同。” 🌐 播客信息补充本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的使用 AI 进行翻译，因此可能会有一些地方不通顺；如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight

60分钟

2k+

1周前

LT+墨墨：发不出去的情绪，怎么不憋出内伤？

LET

【适合谁】习惯压抑情绪、怕冲突而自我攻击的人，助你停止内耗，学会不伤人也不委屈自己的情绪表达【本期嘉宾 - 墨墨】墨墨丨人生关系教练丨教练督导丨ICF国际教练联盟专业教练PCC丨教练时数1500+ 支持你更好的处理关系的痛苦，解除内在限制性信念，找到自我价值、定位和动力，重写人生剧本。公众号：墨墨的无心之说视频号：無心教练微信：shane6789 【关于我 - 兰婷】正念老师·教练｜兰婷，教练对话/正念/NLP/催眠，伴你成为自己公众号 LET见心房视频平台转型翅膀兰婷小报童专栏《见心之旅》【见心房社群】心身觉察成长社群每周工作日午间公益正念练习，以及预约教练对话，和其他身心觉察、个人成长工作坊及课程，扫码入群或加 let_studio 回复“成长” 【内容】 01:06 聊一聊发不出去的情绪与情绪管理 02:58 情绪不止发泄，更要学会有效表达 05:19 长期压抑情绪的后果：习惯逃避，反复内耗脑补 08:27 职场被要求后半夜加班，发不出去的愤怒 11:17 情绪管理第一招：先看见自己的情绪在表达什么 14:12 上级一定是对的吗？ 21:08 人事分离，工作批评不影响自我价值 22:46 靠正念和教练梳理走出负面情绪 27:43 分清评价与事实 37:10 打破固有信念，看清头脑中的应该 42:15 情绪内耗根源：小我争夺存在感，身份恐惧引发焦虑 49:47 情绪调节提醒：允许自己崩溃，允许自己暂时做不到配乐丨Sea of Memory - Aakash Gandhi 本期 shownotes 由「播记」生成

50分钟

58

1周前

等了20年的電影 ~《穿著Prada的惡魔2》 (本集有雷不喜勿入!!)

姐妹悄悄話

#姐妹悄悄話⁠⁠⁠⁠⁠⁠⁠⁠ ⁠#sisterstalktalkshow⁠⁠⁠⁠⁠⁠⁠⁠ 再次提醒!! 本集有雷!!不喜勿入!! 重點精華大家看了《穿著Prada的惡魔2》嗎? 這集有爆雷心得，介意的姐妹趕快跳過經典IP 當初一上映引起全世界轟動很多橋段巧妙致敬了第一集經過20年，那些人那些事變了樣? 不跟著變動調整很快被淘汰? 若需再製使用請來信取得授權同意⁠⁠[email protected]⁠

32分钟

1k+

1周前

用 TS 写命令行工具，比你想的简单多了

AsyncTalk

万物皆可 CLI 的时代（尤其 AI 起来之后），怎么写一个好用的命令行工具？这期聊点不一样的——不碰 C/Go/Rust，直接用 TypeScript + Bun 也能整一个能发给用户的 CLI。从 bun init 起步，命令解析交给 citty，界面渲染用 Ink（对，就是用 React 写 TUI），最后 bun build --compile 一把打成单文件。57 兆是大了点，但是它能用（doge）。最折磨人的签名 + 公证怎么办？goreleaser 从 2.6 开始把 bun 当一等公民支持，checksum、changelog、打包、公证、Homebrew 分发全给你包圆了。顺带提一句：Mac 开发者证书 99 刀一年，这钱是真省不掉。下期预告：怎么把这整套编译流程自动化掉。你写过 / 用过哪些有意思的 CLI？评论区聊聊～ #CLI #命令行工具 #TypeScript #Bun #Ink #goreleaser #前端开发 #程序员 #开发工具 #ClaudeCode #AsyncTalk

12分钟

99+

1周前

vol.114 谢胜子：人在松弛的状态下无敌（下）

谢胜子开天窗

00:00:23 松弛的关系，才走得远 00:01:01 关系不是一上来就锁死的 00:01:56什么叫心很重？ 00:02:22 心太重的人要有点痞气 00:02:56 谦虚的张力也要有 00:03:11 淡淡的才能长长久久 00:04:02 是药三分毒 *添加胜子本人微信胜子vx：Shengzi0066，添加请备注【播客】，领取《职场人情世故三万字精华》《识人与人性法则2w字》《商业与赚钱思维2w字》，朋友圈日常更新创业笔记和思考感悟，让胜子陪你一起慢慢变强大～ *关注胜子微博:谢胜子抖音:谢胜子小红书:谢胜子公众号:谢胜子工作室陪你慢慢变强大。

5分钟

1k+

1周前

EP17.失业｜人生允许存在一个中间地带吗？

Her Patch

📝 本期简介你是否也曾觉得，上班时的自己像一台没有感情的机器，每天“死人微活”地熬过一天又一天？失业后，失去的不仅是薪水，还有身份、秩序、价值感——但重要的是，人也开始慢慢“活过来”了。这期节目，两位失业近两年的主播，聊了聊我们从“度日如年的活死人”到“一贫如洗的真活人”的过程。这期节目，我们将聊到：羞耻感 & 身份危机：没有工作title，你还能怎么介绍自己？如何面对“你最近在干嘛”的灵魂拷问？金钱观的颠覆：从“消费解压”到“每一分钱都是底气”，失业后怎么权衡钱的问题？时间秩序的崩塌与重建：当每一天都变成周末，自由为什么反而让人焦虑？如何用“小锚点”把一天撑起来？自由不会自动带来快乐：它只是把选择权还给你——你往里填什么，才是关键。中间地带的生存哲学：不是爽文逆袭，也没有彻底坠落。在“试”中活着，在“做”中修好自己。如果你正处在职场迷茫、失业边缘，或已经开始了自己的“中间地带”，希望这期内容能给你一个温柔的参考样本：工作只是人生的工具，不是全部。我试故我在。 ⏱ 时间轴 Part 01：从“死人微活”到“活人感满满” 00:15 从“死人微活”的上班状态，到失业后慢慢恢复感官、重新拥有活人感 Part 02：没人管我以后，我反而开始慌了 05:25 羞耻感 & 身份危机：没有工作title，怎么介绍自己？ 09:58 坐吃山空的焦虑与对父母的内疚，从消费解压到每一分钱都是底气——“没挣钱不代表我贬值” 25:25 时间秩序崩塌：从“报复性放纵”到“每一天都是周末”的失重感 29:24 “自由并不会自动让人快乐”：自由给了空间，但往里填什么得你自己来 Part 03 怎么把一天过下去？小秩序重新长出来 32:14 建立“锚点”：闹钟还在、跳操半小时、把一天撑起来 33:37 走出去：公园、滨江、小众街区——最好的东西都是免费的 36:33 创造与心流：画画、做播客、回复每一条评论——找到“属于自己的东西” 41:23 不是所有努力都会被立刻看见：学会自我接纳 Part 04 也许人生允许存在一个中间地带 44:44 最感谢的人：父母朋友的支持，以及那个“不管坏掉多少次，都会修好自己”的自己 47:30 总结：不是爽文，没有逆袭。我们在中间地带，一天一天地过——我试故我在 🎙主播：Elaine、Louisa 🎵 背景音乐： Soft Glow-JYMusic ✉️投稿、商务合作：[email protected] 🎧 Her Patch 收听方式：苹果播客 | 小宇宙 ⭐️抖音官方账号：Her Patch

48分钟

35

1周前

vol.184 讲给孩子的文学课丨从五代十国到两宋

讲给孩子的《三字经》

本期聊聊宋代文学前的两宋历史！唐和宋之间隔着五代十国？五代十国为啥乱？宋太祖陈桥兵变、杯酒释兵权，重文轻武是福是祸？靖康之耻多耻辱？南宋爱国文学为啥爆发？快速收听五代十国时期混乱，政权更迭频繁0:00 李煜词作出名，为五代十国代表1:13 赵匡胤陈桥兵变建立宋朝1:51 杯酒释兵权，宋朝重文轻武2:36 宋朝军事弱，签澶渊之盟、靖康之耻3:38 南宋文学繁荣，经济文化发达4:32 宋朝取消宵禁，科举制度完善5:32 宋朝尊重人才，文化遗产流传至今6:35

7分钟

67

1周前

关注！A股的冰火两重天，背后真相揭晓

每天五分钟，基金定投聊通透

节目讨论了当前A股市场的明显分化现象，尤其是AI板块的火热与其他板块的低迷形成鲜明对比。分析指出，市场资金的虹吸效应导致了这种结构性分化，许多投资者对于高股息和红利的关注逐渐被忽视。在这种情绪高涨的情况下，投资者需保持理性，谨慎追高，并重视资产配置和风险承受能力。节目强调，尽管市场表现强劲，但任何资产在经历过热后都会面临回落的风险。 00:02:14:消费板块未来盈利修复斜率变长，基本面变化引发关注 00:04:27:理性投资，避免盲目追高！

5分钟

99+

1周前

胜子和表妹的故事 | 人靠自悟，每个人有自己的功课

谢胜子空间站

00:04 盲目崇拜，是最好的情绪价值 01:50 人越nice，越容易把关系处差 03:34 做朋友的朋友，而不是朋友的老师 04:15 过度输出，会让人记恨你 04:46 只帮别人“最后一口气” 🏷️胜子本人微信 Shengzi0055，添加请备注“播客”，领取《职场人情世故三万字精华》《识人与人性法则2w字》《商业与赚钱思维2w字》，朋友圈日常更新创业笔记和思考感悟，让胜子陪你一起慢慢变强大～ ⭐记得关注胜子哦：微博：谢胜子抖音：谢胜子小红书：谢胜子公众号：谢胜子

7分钟

2k+

1周前

越爱惜自己的人，越有钱

日理万机

你要欣赏和爱惜自己。努力奋斗去赚钱是第一步。收获财富，如何支配是第二步。爱惜自己，才有经营好人生的底层逻辑。善于经营人生，才会越来越富有。加我微信daydaystud，一起进步：）最近一个超级无敌重要的内容👉《绝密分享：刚刚捕捉到的新商机》

0分钟

99+

1周前

276 半年摘星 Fabula的星途与威士忌时刻

杯弓舌瘾

浏览此内容前，请确认您已年满18周岁。本期节目由苏格登特约播出 Fabula这个名字来自古老的拉丁谚语「ācta est fābula, plaudite」，故事结束请鼓掌。来自名厨摇篮泰安门的三位年轻主厨，用真诚且有分寸的探索与表达，让这家低调的餐厅成为了上海精致餐饮的强势新人，并在今年的米其林沪苏浙榜单中获得新晋一星。本期节目钱老板拜访老朋友Zee，以及Fabula的另外两位创始主厨Charles和Ricky，一起聊了聊Fabula的摘星之旅，以及在殿堂级的米其林餐厅掌勺的真实体验。短期的快速发展与稳健的扎实成长在这家店里呈现出一种良性的共生，如同佳肴美酒一样保持着经得起时间考验的回味。始于1838年，苏格登单一麦芽威士忌以苏格兰高地产区为风味之源，坚持传承慢糖化、慢酵酿、慢蒸馏的风味工艺，酿就威士忌的最佳状态。首席调配大师克雷格·威尔逊融合欧洲橡木桶与美国橡木桶熟成，勾勒出层次丰富、圆润深邃的风味，带来丰盈的入口体验，享受丰盈的人生趣味。点击链接，获得专属优惠券： 1 选购产品 2 立领99-10优惠欢乐无限饮酒有度关于理性饮酒，请于微信搜索DRINKiQ小程序以获得更多信息 - 对话成员 - 钱老板（小红书：@钱老板） Zee、Charles、Ricky （Fabula，上海） - 互动方式 - 商务合作：[email protected] 微博：@杯弓舌瘾TipsyProof 微信公众号：杯弓舌瘾请勿向未成年人分享此内容。

64分钟

99+

1周前

【足球锐评电台】赛季最后一舞，欧冠矛盾之巅，巴黎王朝诞生！

莫空de足球锐评电波

00:00 引言+上半场 08:30 下半场+加时 18:22 脑洞系列 21:43 点球大战以及尾声文案/配音/后期：莫空de BGM Queen - We Are the Champions Rachael Nemiroff - You Say Radical Face - Always Gold Tony Ann - ICARUS Paco de Lucía - Entre Dos Aguas Miracle Of Sound - Valhalla Calling Miracle Of Sound - Skal

24分钟

99+

1周前

节目

#568. Transformer辩论：如何理解下一代智能之争

LT+墨墨：发不出去的情绪，怎么不憋出内伤？

等了20年的電影 ~《穿著Prada的惡魔2》 (本集有雷不喜勿入!!)

用 TS 写命令行工具，比你想的简单多了

vol.114 谢胜子：人在松弛的状态下无敌（下）

EP17.失业｜人生允许存在一个中间地带吗？

vol.184 讲给孩子的文学课丨从五代十国到两宋

关注！A股的冰火两重天，背后真相揭晓

胜子和表妹的故事 | 人靠自悟，每个人有自己的功课

越爱惜自己的人，越有钱

276 半年摘星 Fabula的星途与威士忌时刻

【足球锐评电台】赛季最后一舞，欧冠矛盾之巅，巴黎王朝诞生！

加入我们的 Discord

扫描微信二维码

播放列表

节目

#568. Transformer辩论：如何理解下一代智能之争

LT+墨墨：发不出去的情绪，怎么不憋出内伤？

等了20年的電影 ~《穿著Prada的惡魔2》 (本集有雷 不喜勿入!!)

用 TS 写命令行工具，比你想的简单多了

vol.114 谢胜子：人在松弛的状态下无敌（下）

EP17.失业｜人生允许存在一个中间地带吗？

vol.184 讲给孩子的文学课丨从五代十国到两宋

关注！A股的冰火两重天，背后真相揭晓

胜子和表妹的故事 | 人靠自悟，每个人有自己的功课

越爱惜自己的人，越有钱

276 半年摘星 Fabula的星途与威士忌时刻

【足球锐评电台】赛季最后一舞，欧冠矛盾之巅，巴黎王朝诞生！

加入我们的 Discord

扫描微信二维码

播放列表

等了20年的電影 ~《穿著Prada的惡魔2》 (本集有雷不喜勿入!!)