播客: 白话-大模型 - EarsOnMe - 精选播客，一听即合

播客简介

创作者

节目

第25期丨GRU：优雅的简化

【第25期】上一期我们讲了 LSTM：它用“三道门”和“细胞状态”，让 AI 学会管理长期记忆。但 LSTM 也有一个问题：设计很精巧，结构也比较复杂。那么，有没有办法保留 LSTM 的核心思想，但把结构做得更简洁？这就是本期主角：GRU，门控循环单元。它把 LSTM 的复杂记忆管理系统，简化成“两道门”：重置门和更新门。一个决定旧记忆还要不要参与，一个决定新旧记忆该怎么混合。更少的参数，更快的训练，更优雅的结构。GRU 不一定要取代 LSTM，但它告诉我们：在 AI 里，真正厉害的设计，往往不是越复杂越好，而是找到刚刚好的复杂度。 * 00:00:00 开篇：回顾LSTM的长期记忆机制与复杂性局限 * 00:00:33 学界清流：为什么约书亚·本吉奥拒绝天价年薪，坚守MILA实验室？ * 00:01:14 技术主角登场：赵京铉与2014年的那篇“神作”论文 * 00:02:16 大刀阔斧：GRU的“两项关键简化”设计哲学 * 00:03:51 深度拆解：重置门（Reset Gate）如何决定旧记忆的“去留” * 00:06:36 核心旋钮：更新门（Update Gate）与大脑记忆的新陈代谢 * 00:08:45 流程全景：GRU如何用“两门一态”完成与LSTM同等的工作 * 00:10:06 预告：迈向Seq2Seq，即将开启的AI翻译革命 #AI #白话大模型 #GRU #门控循环单元 #LSTM #深度学习 #人工智能 #AI科普 #神经网络 #大模型

11分钟

33

21小时前

第24期丨LSTM：让AI学会管理记忆

白话-大模型

【第24期】你是否想过，为什么早期的 AI 总是“读了后面忘前面”？在那个连深度学习三巨头之一的本吉奥都从数学上证明了 RNN 存在长期记忆缺陷的年代，一对来自德国的师生——塞普·霍克海特和约尔根·施米德胡伯，却在学术边缘地带，用一种“另起炉灶”的天才构思，修筑了一条通往未来的“记忆高速公路”。本期节目，我们将深入浅出地拆解 LSTM（长短期记忆网络）的底层逻辑。它不仅仅是技术上的解耦与创新，更蕴含着一种深刻的人生哲学：真正的智能，并不在于记住所有，而在于学会选择。同时，我们还会聊聊那位性格强硬、在学界掀起无数风暴的“异类”天才施米德胡伯。前方高能，让我们一起进入时间记忆与信息流的微观世界。 00:13 RNN 的致命伤：为什么早期的 AI 读到文章末尾就会忘掉开头？本吉奥的数学证明与梯度消失难题。 01:31 德国师生的逆袭：霍克海特与施米德胡伯的相遇，以及 LSTM 在 1997 年的横空出世。 03:12 重新修一条路：拒绝在旧路上缝缝补补，LSTM 如何通过引入“细胞状态（Cell State）”实现长期记忆的高速流动。 03:55 加法胜过乘法：直观理解为什么加法更新能缓解梯度消失，保护重要的信息火种。 04:53 解耦的艺术：隐藏状态负责思考，细胞状态负责流传，复杂系统的高效分工逻辑。 05:14 智能收费站：深度拆解“门控机制”——遗忘门、输入门与输出门是如何协同工作的。 06:12 遗忘门哲学：为什么说“学会遗忘”才是通往智能的第一道关卡。 11:24 技术之外的执念： “战斗力十足”的施米德胡伯，关于原创性、学界偏见与科学进步的冷思考。

13分钟

99+

3周前

第23期丨RNN的长期失忆症

白话-大模型

【第23期】AI终于有了记忆，却很快患上了长期失忆症。这一期我们从Elman网络讲起：为什么只是把“计算结果”换成“隐藏状态”，就让机器第一次在预测下一个词的过程中，自己发现了语法结构？而本吉奥又为什么在1994年指出，简单RNN存在一个残酷矛盾：记得住和学得会，两者不可兼得？这期是理解RNN、LSTM，以及后来大语言模型的一块关键拼图。 * [00:00:15] 回顾 Jordan 与 Elman 网络的开山地位及其结构差异。 * [00:00:45] 深度类比：为什么“电影好不好看”只是结果，而脑中的“复杂感受”才是灵魂。 * [00:01:35] 揭秘“隐藏状态”：为什么语境判断比上一步的输出更重要？ * [00:02:05] 认知科学家的执着：埃尔曼对乔姆斯基“天赋论”的怀疑与挑战。 * [00:02:35] 迷你的“语言世界”实验：29 个单词与 1 万个句子的奇妙训练。 * [00:03:46] 神奇的涌现：AI 如何在无监督下自行长出一棵“层级分类树”。 * [00:04:42] 跨越 40 年的共鸣：Elman 网络作为大语言模型（LLM）早期微光的意义。 * [00:05:05] 总结：预测序列、在错误中学习与结构的自发形成。

11分钟

99+

1个月前

第22期丨记忆的萌芽：RNN诞生

白话-大模型

在 Transformer 统治 AI 界的今天，那个曾经被称为“循环神经网络（RNN）”的技术似乎已退居二线。然而，很多人并不知道，今天 GPT、豆包身上那些令人惊艳的能力——预测下一个词的核心机制、脱胎换骨的“自注意力机制”，其实全都是在研究 RNN 的过程中被“逼”出来的。如果不理解 RNN，你就无法真正读懂 AI 是如何从“只会看图”进化到“能够思考”的。本期节目，我们将开启本书第四章《机器之心：RNN 与序列记忆》，带你回到 20 世纪 80 年代，看数学宗师乔丹与心理语言学家艾尔曼如何通过截然不同的逻辑，赋予了机器最原始的“记忆力”。这不仅是技术的演进，更是人类模仿自身心智的一场伟大实验。 * 00:00 为什么要聊“过时”的 RNN？它是通往 Transformer 的必经之路。 * 01:07 从 CNN 到 RNN：当 AI 面对“狗咬人”和“人咬狗”，顺序为何如此致命？ * 02:02 语义的迷宫：为什么“想一个人”在不同上下文里有完全相反的含义？ * 03:03 AI 的“断片”时刻：揭秘早期神经网络缺乏上下文记忆的致命缺陷。 * 04:05 双雄会：数学大师 Michael Jordan 与认知科学家 Jeffrey Elman 的思想碰撞。 * 04:46 Jordan 网络：在标准网络里加个“补丁”，让输出值学会“回流”。 * 07:11 语言是天生的吗？艾尔曼如何用 AI 挑战主流语言学观点。 * 09:12 隐藏层的秘密：为什么传递“激活值”比传递“结果”更有深远影响？

10分钟

99+

1个月前