Album

白话-大模型

未知 TechAstra星科技
1,114 订阅 26 集 21小时前
播客简介
创作者
节目
第25期丨GRU:优雅的简化

第25期丨GRU:优雅的简化

白话-大模型

【第25期】上一期我们讲了 LSTM:它用“三道门”和“细胞状态”,让 AI 学会管理长期记忆。 但 LSTM 也有一个问题:设计很精巧,结构也比较复杂。那么,有没有办法保留 LSTM 的核心思想,但把结构做得更简洁?这就是本期主角:GRU,门控循环单元。 它把 LSTM 的复杂记忆管理系统,简化成“两道门”:重置门和更新门。一个决定旧记忆还要不要参与,一个决定新旧记忆该怎么混合。 更少的参数,更快的训练,更优雅的结构。GRU 不一定要取代 LSTM,但它告诉我们:在 AI 里,真正厉害的设计,往往不是越复杂越好,而是找到刚刚好的复杂度。 * 00:00:00 开篇:回顾LSTM的长期记忆机制与复杂性局限 * 00:00:33 学界清流:为什么约书亚·本吉奥拒绝天价年薪,坚守MILA实验室? * 00:01:14 技术主角登场:赵京铉与2014年的那篇“神作”论文 * 00:02:16 大刀阔斧:GRU的“两项关键简化”设计哲学 * 00:03:51 深度拆解:重置门(Reset Gate)如何决定旧记忆的“去留” * 00:06:36 核心旋钮:更新门(Update Gate)与大脑记忆的新陈代谢 * 00:08:45 流程全景:GRU如何用“两门一态”完成与LSTM同等的工作 * 00:10:06 预告:迈向Seq2Seq,即将开启的AI翻译革命 #AI #白话大模型 #GRU #门控循环单元 #LSTM #深度学习 #人工智能 #AI科普 #神经网络 #大模型

11分钟
33
21小时前
第24期丨LSTM:让AI学会管理记忆

第24期丨LSTM:让AI学会管理记忆

白话-大模型

【第24期】你是否想过,为什么早期的 AI 总是“读了后面忘前面”?在那个连深度学习三巨头之一的本吉奥都从数学上证明了 RNN 存在长期记忆缺陷的年代,一对来自德国的师生——塞普·霍克海特和约尔根·施米德胡伯,却在学术边缘地带,用一种“另起炉灶”的天才构思,修筑了一条通往未来的“记忆高速公路”。 本期节目,我们将深入浅出地拆解 LSTM(长短期记忆网络)的底层逻辑。它不仅仅是技术上的解耦与创新,更蕴含着一种深刻的人生哲学:真正的智能,并不在于记住所有,而在于学会选择。同时,我们还会聊聊那位性格强硬、在学界掀起无数风暴的“异类”天才施米德胡伯。 前方高能,让我们一起进入时间记忆与信息流的微观世界 。 00:13 RNN 的致命伤: 为什么早期的 AI 读到文章末尾就会忘掉开头?本吉奥的数学证明与梯度消失难题 。 01:31 德国师生的逆袭: 霍克海特与施米德胡伯的相遇,以及 LSTM 在 1997 年的横空出世 。 03:12 重新修一条路: 拒绝在旧路上缝缝补补,LSTM 如何通过引入“细胞状态(Cell State)”实现长期记忆的高速流动 。 03:55 加法胜过乘法: 直观理解为什么加法更新能缓解梯度消失,保护重要的信息火种 。 04:53 解耦的艺术: 隐藏状态负责思考,细胞状态负责流传,复杂系统的高效分工逻辑 。 05:14 智能收费站: 深度拆解“门控机制”——遗忘门、输入门与输出门是如何协同工作的 。 06:12 遗忘门哲学: 为什么说“学会遗忘”才是通往智能的第一道关卡 。 11:24 技术之外的执念: “战斗力十足”的施米德胡伯,关于原创性、学界偏见与科学进步的冷思考 。

13分钟
99+
3周前
第22期丨记忆的萌芽:RNN诞生

第22期丨记忆的萌芽:RNN诞生

白话-大模型

在 Transformer 统治 AI 界的今天,那个曾经被称为“循环神经网络(RNN)”的技术似乎已退居二线。然而,很多人并不知道,今天 GPT、豆包身上那些令人惊艳的能力——预测下一个词的核心机制、脱胎换骨的“自注意力机制”,其实全都是在研究 RNN 的过程中被“逼”出来的。 如果不理解 RNN,你就无法真正读懂 AI 是如何从“只会看图”进化到“能够思考”的。本期节目,我们将开启本书第四章《机器之心:RNN 与序列记忆》,带你回到 20 世纪 80 年代,看数学宗师乔丹与心理语言学家艾尔曼如何通过截然不同的逻辑,赋予了机器最原始的“记忆力”。这不仅是技术的演进,更是人类模仿自身心智的一场伟大实验。 * 00:00 为什么要聊“过时”的 RNN?它是通往 Transformer 的必经之路。 * 01:07 从 CNN 到 RNN:当 AI 面对“狗咬人”和“人咬狗”,顺序为何如此致命? * 02:02 语义的迷宫:为什么“想一个人”在不同上下文里有完全相反的含义? * 03:03 AI 的“断片”时刻:揭秘早期神经网络缺乏上下文记忆的致命缺陷。 * 04:05 双雄会:数学大师 Michael Jordan 与认知科学家 Jeffrey Elman 的思想碰撞。 * 04:46 Jordan 网络:在标准网络里加个“补丁”,让输出值学会“回流”。 * 07:11 语言是天生的吗?艾尔曼如何用 AI 挑战主流语言学观点。 * 09:12 隐藏层的秘密:为什么传递“激活值”比传递“结果”更有深远影响?

10分钟
99+
1个月前
评价

空空如也

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧