白话-大模型 - 节目列表

第25期丨GRU:优雅的简化

第25期丨GRU:优雅的简化

白话-大模型

【第25期】上一期我们讲了 LSTM:它用“三道门”和“细胞状态”,让 AI 学会管理长期记忆。 但 LSTM 也有一个问题:设计很精巧,结构也比较复杂。那么,有没有办法保留 LSTM 的核心思想,但把结构做得更简洁?这就是本期主角:GRU,门控循环单元。 它把 LSTM 的复杂记忆管理系统,简化成“两道门”:重置门和更新门。一个决定旧记忆还要不要参与,一个决定新旧记忆该怎么混合。 更少的参数,更快的训练,更优雅的结构。GRU 不一定要取代 LSTM,但它告诉我们:在 AI 里,真正厉害的设计,往往不是越复杂越好,而是找到刚刚好的复杂度。 * 00:00:00 开篇:回顾LSTM的长期记忆机制与复杂性局限 * 00:00:33 学界清流:为什么约书亚·本吉奥拒绝天价年薪,坚守MILA实验室? * 00:01:14 技术主角登场:赵京铉与2014年的那篇“神作”论文 * 00:02:16 大刀阔斧:GRU的“两项关键简化”设计哲学 * 00:03:51 深度拆解:重置门(Reset Gate)如何决定旧记忆的“去留” * 00:06:36 核心旋钮:更新门(Update Gate)与大脑记忆的新陈代谢 * 00:08:45 流程全景:GRU如何用“两门一态”完成与LSTM同等的工作 * 00:10:06 预告:迈向Seq2Seq,即将开启的AI翻译革命 #AI #白话大模型 #GRU #门控循环单元 #LSTM #深度学习 #人工智能 #AI科普 #神经网络 #大模型

11分钟
33
1天前
第24期丨LSTM:让AI学会管理记忆

第24期丨LSTM:让AI学会管理记忆

白话-大模型

【第24期】你是否想过,为什么早期的 AI 总是“读了后面忘前面”?在那个连深度学习三巨头之一的本吉奥都从数学上证明了 RNN 存在长期记忆缺陷的年代,一对来自德国的师生——塞普·霍克海特和约尔根·施米德胡伯,却在学术边缘地带,用一种“另起炉灶”的天才构思,修筑了一条通往未来的“记忆高速公路”。 本期节目,我们将深入浅出地拆解 LSTM(长短期记忆网络)的底层逻辑。它不仅仅是技术上的解耦与创新,更蕴含着一种深刻的人生哲学:真正的智能,并不在于记住所有,而在于学会选择。同时,我们还会聊聊那位性格强硬、在学界掀起无数风暴的“异类”天才施米德胡伯。 前方高能,让我们一起进入时间记忆与信息流的微观世界 。 00:13 RNN 的致命伤: 为什么早期的 AI 读到文章末尾就会忘掉开头?本吉奥的数学证明与梯度消失难题 。 01:31 德国师生的逆袭: 霍克海特与施米德胡伯的相遇,以及 LSTM 在 1997 年的横空出世 。 03:12 重新修一条路: 拒绝在旧路上缝缝补补,LSTM 如何通过引入“细胞状态(Cell State)”实现长期记忆的高速流动 。 03:55 加法胜过乘法: 直观理解为什么加法更新能缓解梯度消失,保护重要的信息火种 。 04:53 解耦的艺术: 隐藏状态负责思考,细胞状态负责流传,复杂系统的高效分工逻辑 。 05:14 智能收费站: 深度拆解“门控机制”——遗忘门、输入门与输出门是如何协同工作的 。 06:12 遗忘门哲学: 为什么说“学会遗忘”才是通往智能的第一道关卡 。 11:24 技术之外的执念: “战斗力十足”的施米德胡伯,关于原创性、学界偏见与科学进步的冷思考 。

13分钟
99+
3周前
第22期丨记忆的萌芽:RNN诞生

第22期丨记忆的萌芽:RNN诞生

白话-大模型

在 Transformer 统治 AI 界的今天,那个曾经被称为“循环神经网络(RNN)”的技术似乎已退居二线。然而,很多人并不知道,今天 GPT、豆包身上那些令人惊艳的能力——预测下一个词的核心机制、脱胎换骨的“自注意力机制”,其实全都是在研究 RNN 的过程中被“逼”出来的。 如果不理解 RNN,你就无法真正读懂 AI 是如何从“只会看图”进化到“能够思考”的。本期节目,我们将开启本书第四章《机器之心:RNN 与序列记忆》,带你回到 20 世纪 80 年代,看数学宗师乔丹与心理语言学家艾尔曼如何通过截然不同的逻辑,赋予了机器最原始的“记忆力”。这不仅是技术的演进,更是人类模仿自身心智的一场伟大实验。 * 00:00 为什么要聊“过时”的 RNN?它是通往 Transformer 的必经之路。 * 01:07 从 CNN 到 RNN:当 AI 面对“狗咬人”和“人咬狗”,顺序为何如此致命? * 02:02 语义的迷宫:为什么“想一个人”在不同上下文里有完全相反的含义? * 03:03 AI 的“断片”时刻:揭秘早期神经网络缺乏上下文记忆的致命缺陷。 * 04:05 双雄会:数学大师 Michael Jordan 与认知科学家 Jeffrey Elman 的思想碰撞。 * 04:46 Jordan 网络:在标准网络里加个“补丁”,让输出值学会“回流”。 * 07:11 语言是天生的吗?艾尔曼如何用 AI 挑战主流语言学观点。 * 09:12 隐藏层的秘密:为什么传递“激活值”比传递“结果”更有深远影响?

10分钟
99+
1个月前
第21期丨ResNet突破深度极限

第21期丨ResNet突破深度极限

白话-大模型

【第21期】自从2012年AlexNet开启了深度学习的狂欢,整个AI界都坚信网络越深模型越强。可是当层数堆叠到三五十层时,大家却撞上了一堵令人绝望的叹息之墙,也就是网络退化。模型非但没有变聪明,反而越学越笨。 本期星科技将带你认识这位打破僵局的中国天才学者何恺明。我们将用一个极其接地气的职场企划案审批比喻,为你硬核拆解他那大道至简的天才设计,ResNet残差网络。看一条极简的VIP直达电梯通道,如何保住深层网络的信息不丢失,并在2015年的ImageNet大赛上以152层的恐怖深度历史性地超越人类肉眼识别率。 更重要的是,这套跨越时代的钢铁骨架,至今依然流淌在ChatGPT和DeepSeek等前沿大语言模型的血液中。 期待你在评论区留下你的思考,咱们一起探讨。 * 00:00 深度学习的新信仰:回顾AlexNet开启的“网络越深,模型越强”时代。 * 00:25 2014年ImageNet双雄会:VGG与GoogLeNet的巅峰对决,离人类水平仅一步之遥。 * 01:22 撞向“叹息之墙”:当层数堆叠,模型为何在训练集上离奇“变笨”? * 02:32 状元何恺明的硬核人生:从广东满分状元到计算机视觉领域的顶级学者。 * 04:09 解密ResNet核心逻辑:抛弃H(x),改学“残差”F(x)的天才变通。 * 05:10 大白话拆解:如果模型训练是“解方程”,参数规模到底有多恐怖? * 09:02 职场视角看退化:当CEO遇上层层加戏的“中间层”,原稿的闪光点是如何丢掉的? * 10:18 恒等映射与保底机制:ResNet如何为深度网络建立性能的“绝对下限”。 * 11:49 152层的神迹:AI首次在准确率上超越人类,残差思想如何渗透进今天的Transformer。 * 13:35 下期预告:从静态空间到流动时间,开启RNN与序列数据的新篇章。

14分钟
99+
2个月前
第20期丨AlexNet一战封神、深度学习崛起

第20期丨AlexNet一战封神、深度学习崛起

白话-大模型

欢迎来到《白话大模型》的第20期 。 2012年的 ImageNet 图像识别大赛,原本在一片波澜不惊中拉开序幕,却因为一支名为“SuperVision”的神秘三人小队彻底改变了人类科技的走向 。65岁的“AI守夜人” Geoffrey Hinton 带着两名天才学生——Alex Krizhevsky 和后来声名大噪的 Ilya Sutskever,用两块普通玩家用来打游戏的显卡,以及一直被主流学界质疑的神经网络算法,以碾压所有对手40%的恐怖成绩完成了“屠榜” 。 本期播客,我们将一半讲故事,一半讲技术,带你重温这场宣告深度学习正式降临的破局之战 。我们将硬核拆解有着6000多万参数的超级怪兽 AlexNet,看看“双GPU并行”的工程奇迹是如何诞生的,以及 ReLU 和 Dropout 这两个看似简单却极其伟大的算法创新是如何运作的 。准备好,让我们一起回到那个AI技术突然“起飞”的历史奇点 。 * 00:00:00 惊艳世界的破局之战: 回顾最初两届平淡无奇的 ImageNet 挑战赛,以及2012年那支将错误率断崖式降低到15.3%的神秘团队“SuperVision” 。 * 00:02:21 穿越26年寒冬的守夜人: 65岁的 Hinton 老爷子带着学生重返赛场,证明了神经网络从来不是方向错误,只是“时候未到” 。 * 00:04:03 幕后的两位天才门徒: 榨干两块英伟达显卡算力、事了拂衣去的 Alex,以及后来名满天下的 OpenAI 首席科学家 Ilya 。 * 00:06:46 逼出来的工程奇迹: 面对装不下整个模型的硬件困境,AlexNet 如何巧妙地将网络劈成两半,实现双 GPU 独立并行计算与跨卡融合 。 * 00:09:24 逐层解构超级怪兽: 深度拆解5个卷积层与3个全连接层,看模型如何从11x11大卷积核的轮廓扫描,一步步汇聚成最终的“猫”的概念判断 。 * 00:13:55 大道至简的算法创新: 抛弃 Sigmoid 全面启用 ReLU 彻底解决梯度消失问题,以及通过“随机让一半神经元休息”的 Dropout 机制巧妙战胜过拟合 。 * 00:16:38 一声发令枪响: AlexNet 的大获全胜如何引爆硅谷巨头的抢人战,催生“网络越深,模型越强”的新信仰,并为下一代神级模型 ResNet 埋下伏笔 。

19分钟
99+
2个月前
第19期丨离经叛道的AI教母

第19期丨离经叛道的AI教母

白话-大模型

【第19期】在深度学习震撼世界之前,人工智能曾经历过漫长的寒冬。当全世界都在传统算法里钻牛角尖时,华裔女科学家李飞飞敏锐地发现,限制AI发展的根本不是算法,而是数据。 本期视频,星科技将带你回到深度学习大爆发的前夜。看李飞飞如何顶住学术界的冷眼,动用全球5万名网友,完成给1400万张图片打标签的疯狂挑战。你能想象AI要在120种长相极其相似的狗中准确区分出某一种吗?正是这个史无前例的超级数据集,化作了引爆AI革命的最强燃料。 而在2012年的赛场上,一场惊心动魄的降维打击即将上演。 #AI科普 #李飞飞 #ImageNet #深度学习 #人工智能 #科技史 #白话大模型 #星科技 时间轴: * 00:00:18 神经网络陷入漫长低谷 缺乏数据与算力的炼金术时代 * 00:01:03 从新泽西干洗店到斯坦福讲台 华裔女孩李飞飞的硬核逆袭 * 00:02:40 算法不够好还是数据不够多 巧妇难为无米之炊的第一性思考 * 00:04:19 让工程师绝望的疯狂计划 挑战一千四百万张图片的数字化索引 * 00:05:28 土耳其机器人与数字时代的蚂蚁雄兵 众包模式完成不可能的任务 * 00:07:46 计算机视觉领域的奥林匹克大赛 极其变态的测试规则与细分类别 * 00:10:48 传统机器学习遭遇绝望天花板 连李飞飞自己都开始怀疑人生 * 00:12:34 属于深度学习的寒武纪大爆发 多伦多师徒掀翻牌桌的降维打击

14分钟
99+
3个月前
第18期丨Meta往事,最后一位理想主义者的出走

第18期丨Meta往事,最后一位理想主义者的出走

白话-大模型

白话大模型丨第18期丨ChatGPT 时代的逆行者:为什么深度学习之父杨立昆坚持说 LLM 是条死胡同? 当全世界都在为 Transformer 和 ChatGPT 欢呼时,有一位“巨人”却泼了一盆冷水。 他是卷积神经网络之父,是图灵奖得主,是一手缔造了 Facebook AI 帝国(FAIR)和 PyTorch 的传奇人物——杨立昆(Yann LeCun)。但在 AI 的高光时刻,他却被视作“保守派”甚至是“异见者”。 本期节目,我们将跨越 2013 到 2026 年的时光,重现硅谷 AI 权力的更迭。从扎克伯格“三顾茅庐”的许诺,到 PyTorch 的野蛮生长;从 Llama 4 的“造假丑闻”到计算学派与数据学派的终极对决。这不仅是杨立昆一个人的战斗,更是关于 AI 究竟该通往“统计学概率”还是“世界模型因果”的路线之争。 让我们拨开商业喧嚣,去看看这位 65 岁老兵最后的冲锋。 详细时间轴 * 01:06 扎克伯格的豪赌与“不平等条约”为了对抗 Google 垄断 AI 大脑,扎克伯格答应了杨立昆三个苛刻条件:不搬家、不保密、不背 KPI。 * 02:53 硅谷的理想国:FAIR 实验室一个反公司的存在。在这里,衡量成功的标准不是日活和营收,而是论文数量与对人类智能本质的探索。 * 04:30 PyTorch 封神之路:屠龙少年的胜利对比“德国重型机床”般的 TensorFlow,PyTorch 如何凭借“动态图”哲学,成为全球研究员的通用语言。 * 07:13 “随机鹦鹉”论战:两种哲学的决裂杨立昆为何鄙视自回归模型?详解“世界模型”(World Model)与 JEPA 架构,AI 不应只是概率的统计,而应理解物理因果。 * 10:48 2025 年的转折点:Llama 4 造假丑闻(高能剧情) 为了商业变现,Meta 在基准测试中“拼接”试卷。这一事件彻底击碎了 FAIR 曾经的学术荣誉体系。 * 12:39 暴力美学的上位:当 Data becomes New Code28 岁的 Scale AI 创始人空降 Meta,科学家派系被大清洗。以“大力出奇迹”为信条的工程文化彻底取代了探索精神。 * 14:53 最后的出走:道不同,不相为谋杨立昆离职 Meta。那个以开源和探索为荣的“贝尔实验室”式时代,正式宣告落幕。 * 15:17 巴黎重生:AMI Labs 与最后的豪赌65 岁再创业。这一次,他选择在医疗和物理网络系统中,继续证明“世界模型”才是通往 AGI 的正途。 本期金句 “我不想做改善你新闻流排序的算法,我要做的是破解智能的本质。” “他(杨立昆)不是造剑的人,但他给了铸剑师最纯净的火焰。”——评 PyTorch 的诞生 “这个模型读了 1 万亿个单词,却不知道手松开水杯会掉在地上……因为书本里只写了水杯掉落的结果,没写重力的因果。” “现在的 AI 仍然被困在屏幕跟服务器里,而真正的智能必须要拥有身体。” “如果 AI 掌握在少数几家科技巨头手里,这将是人类的灾难。” 制作手记 本期内容由于涉及大量技术流派演变(静态图 vs 动态图,Transformer vs JEPA),我们在文案中尽量采用了比喻手法(如“德国机床”、“拼凑试卷”),力求让非技术背景的听众也能感受到那场惊心动魄的路线之争。杨立昆的故事,本质上是科学精神与商业资本永恒博弈的缩影。

18分钟
99+
3个月前
第15期丨反向传播(下)

第15期丨反向传播(下)

白话-大模型

【第15期】微积分里的链式法则早在牛顿时代就有了,为什么反向传播算法却让全世界最聪明的科学家整整迟到了20年?🤔 本期视频,我们继续拆解神经网络的演进史。这不仅仅是算法的迭代,更是一场关于打破偏见、跨越低谷的英雄史诗。从1943年的MCP模型到2012年的AlexNet爆发,我们看看这“消失的20年”里到底发生了什么。 📺 本期硬核知识点: * 三重思想钢印: 是什么锁死了AI发展的咽喉?(生物学执念、局部最优恐惧、学术偏见) * 激活函数进化史: 为什么神经网络必须“弯”一下?从Sigmoid的梯度消失,到ReLU的简单粗暴,数学上的“不完美”如何成就了工程上的奇迹? * AI守夜人: 杰弗里·辛顿(Geoffrey Hinton)如何带领杨立昆、本吉奥穿越寒冬?OpenAI首席科学家Ilya当年的高光时刻。 📚 关于《白话大模型》系列: 我是数据科学家、科技公司CTO。这是我正在撰写的一本AI科普书的视频版,旨在用最通俗的语言,把大模型掰开揉碎讲给你听。 🎉 特别预告: 书稿终于写完了!最后一章关于Diffusion和Transformer的内容写得很过瘾,预计明年春天面世。感谢大家长久以来的陪伴! 如果觉得内容硬核且有用,请一键三连支持一下!这期20分钟的长视频,需要你的鼓励!🙌 #AI科普 #深度学习 #大模型 #辛顿 #激活函数 #ReLU #反向传播 #人工智能史

19分钟
99+
5个月前

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧