晚点聊 LateTalk - 108: 与马毅聊智能史:“DNA是最早的大模型”，智能的本质是减熵 - EarsOnMe

晚点聊 LateTalk
108: 与马毅聊智能史:“DNA是最早的大模型”，智能的本质是减熵

时长：

138分钟

播放：

2.31万

发布：

4个月前

主播...

简介...

香港大学计算与数据科学学院院长，看 35 亿年智能史。欲知未来，先知过去。
这期是《晚点聊》的一个新系列「LongContext」“长语境”的第 1 期。
封面：马毅上周五（3 月 14 日）在北大做分享（刚好是 π 日）
类似于现在的大模型需要 LongContext，我们去学习智能，也需要一个更全面的历史语境，让我们能在新东西不断涌现的此刻，找到一个更稳定的坐标。
在这个系列的开端，我邀请了香港大学计算与数据科学学院院长，马毅教授，来与我们聊智能和机器智能的历史。
马毅本科毕业于清华大学，2000 年在加州伯克利大学获得博士学位，先后任职于伊利诺伊大学香槟分校（UIUC）、微软亚研院、上海科技大学、伯克利大学和香港大学，是人工智能和计算机视觉领域的全球知名学者。
最近 5 年，马毅自己关心的课题之一，就是智能的历史。为了在港大推动面向所有学科本科生的 AI 通识教育，他也在撰写教材、设计课程，对智能的发展做了更全面和深入浅出的整理。
马毅对智能有一些“少数派”的理解，比如本系列的名称「LongContext」——当作为一个技术概念时，马老师认为与其一味追逐预训练模式下的更长 LongContext，更好的方法是找到一种机制，能让智能系统有闭环的、长久的、不会遗忘的记忆。这些理解本身与他对智能史的梳理和认知有关。
智能是如何在地球上诞生的？马毅认为，生命就是智能的载体：从 DNA 出现，到神经系统诞生和寒武纪物种大爆发，再到人类的语言与数学的诞生，智能有不同的表现形式，但不变的是，智能都是在学习外部世界的知识与规律，从而进行预测，使知识可以为我所用。智能是在寻找规律并利用规律，是一个对抗宇宙熵增的过程。
从智能的历史，我们进一步聊了机器智能的历史：大部分人会把 1956 年的达特茅斯会议视为人工智能的开端，而马毅认为，对机器智能的研究，要追溯到 1940 年代的维纳的控制论、香农的信息论等更早的源头。从那时到现在的 80 多年里，机器智能发展几经起伏。马毅也分享了自己亲历的部分变化：比如他刚博士毕业时，找不到对口方向的教职；他现在被引用最多的成果，一度没有任何会议接受。
马毅也分享了一个研究者的技术品味如何形成？“品味”不仅是一种认知，也是认知被挑战时能继续坚持的自信。马毅的 taste，使他进入了一个目前在 AI 工业界眼中并不那么主流的方向：白盒大模型，和能实现“闭环、反馈、纠错”的机器智能。这两个方向在我们去年与马老师的访谈中有更详细的展开，具体内容可见《晚点聊》第 71 期节目。为加速这些方向的探索，马毅也创立了一家公司“忆生科技”。
本期涉及的人物、理论、技术成果、术语，见 Shownotes 文末附录。
本期嘉宾：
马毅，香港大学计算与数据科学学院院长
时间线：
00:13 开场总结 & LongContext 系列说明
智能的历史
04:58 DNA、神经系统、语言、数学，智能有四种机制；知识本身不是智能，而是智能活动的结果
19:06 大模型在四种机制中的阶段——类似靠 DNA 物竞天择的强化学习
24:53 智能在宇宙中诞生，也许是偶然中的必然；宇宙熵增（越来越混乱、随机），终有一天会无规律可学
机器智能的历史
29:02 AI 的起点不是达特茅斯会议
39:55 80 年机器智能史中的“闪耀时刻”
46:57 神经网络的起伏，本质是机制不明确，一些成果靠经验性试错
56:51 Open o1 和 DeepSeek-R1，它们真的在做“推理”吗？
01:08:06 “DeepSeek”们的出现，是一个 where and when 的问题，不是 if or not 的问题
技术 taste 的形成
01:11:21 探索未知的勇气和特立独行+严谨的学术培养
01:14:24 “做数学家，第一条是把自己训练成世界上最难说服的人”
01:18:53 在伯克利读博士时的氛围：自由跨组，学生互助
01:24:16 品味被挑战的时刻：现在被引用最多的成果，一度没有任何会议接收
01:27:58 没有接受系统教育的企业家、从业者，如何形成技术 taste？
港大 AI 通识教育实践
01:35:12 减少一门英语课，所有本科生增加一门 AI literacy：教授历史、技术概念、伦理；重要的是思维训练，而不是结论本身
01:45:50 机器降临派 or 人类堡垒派？——智能共存
白盒与闭环反馈纠错
01:52:15 闭环系统才能适应开放世界，具身是应用场景
01:54:05 VLA 端到端不一定是具身智能正确的解法，至少不是最高效的解法；人脑其实是一个并行结构
01:59:50 公司的意义，与学校要做的事形成互补
02:11:28 “我从不说 AGI”，不要笼统地理解智能
02:13:05 “焦虑就是来自不懂”，当 AI 的黑盒被利用，“迷信是这么产生的，权力也是这么产生的”
02:15:09 本期「连点成线」
相关链接：
晚点聊71：“如果相信只靠 Scailng Laws 就能实现 AGI，你该改行了”，与香港大学马毅聊智能
对话香港大学马毅：“如果相信只靠 Scaling Laws 就能实现 AGI，你该改行了”
晚点聊106：与真格戴雨森长聊Agent：各行各业都会遭遇“李世石时刻”，Attention is not all you need
晚点聊103：用 Attention 串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进
晚点聊101：与王小川聊AIX医疗：通向“生命科学的数学原理”
附录：
诺伯特·维纳：控制论创始人，奠定AI与自动化理论基础。
图灵：计算机科学之父，提出图灵机与图灵测试，奠定AI理论基础。
冯·诺依曼架构：计算机体系结构基础，由冯·诺依曼于1945年提出，沿用至今。
达特茅斯会议：1956 年由麦卡锡、明斯基等人发起，首次定义“人工智能”。
Perceptron：感知机，Frank Rosenblatt于1957年提出的早期神经网络模型。
Yann Lecun：卷积神经网络先驱，2018年图灵奖得主，Meta首席AI科学家。
Geoffrey Hinton：深度学习先驱，反向传播算法（Back Propagation）联合提出者，2018年图灵奖得主。
李飞飞：斯坦福大学教授，ImageNet数据集发起人，推动计算机视觉发展。
卷积神经网络（CNN）：Yann LeCun于1980年代末提出的深度学习模型，专用于图像识别。
AlexNet：2012年ImageNet竞赛冠军模型，由Hinton团队提出，推动深度学习复兴。
ResNet：微软2015年提出的残差网络，解决深层网络梯度消失问题。
VGG：牛津大学2014年提出的深度卷积网络，以结构简单高效著称。
ImageNet：李飞飞团队2009年发起的图像数据集，推动AI算法发展。
李泽湘：机器人技术专家，马毅在伯克利博士期间的师兄；他们的导师是 Shankar Sastry。
陶哲轩：数学家，研究涵盖机器学习理论，推动AI与数学交叉领域发展。
SFT Memorizes, RL Generalizes：（港大、UC Berkely、Google DeepMind、NYU 2025 年合作发表的论文），是本期中讨论提升模型推理时，SFT（监督微调）和 RL（强化学习）的相关但不同角色的那篇论文。
监督微调（Supervised Fine Tuning）：基于标注数据调整预训练模型，适配特定任务。
强化学习（Reinforcement Learning）：通过奖励机制优化策略，适用于动态决策任务。
伯克利 BAIR：加州大学伯克利分校人工智能研究所，成立于2016年，聚焦机器人、强化学习等前沿领域。
VLA：Vision-Language-Action Model 视觉-语言-动作模型，Google DeepMind 2023 年提出的一种让智能体在物理或数字环境中执行复杂任务的模型，应用于机器人、自动驾驶等领域
播客中提到的两位遭遇学生生涯挫折的诺贝尔奖得住：一位是 2024 年生理学或医学奖得主 Victor Ambros，曾未能获得哈佛大学终身教职；一位是 2023 年生理学或医学奖得主 Katalin Karikó，曾被宾夕法尼亚大学降级降薪。
剪辑制作：Nick
本期主播：小红书 @曼祺_火柴Q，即刻 @曼祺_火柴Q
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

评价...

空空如也

小宇宙热门评论...

每天都要醒来

4个月前陕西

马老师确实是透过现象看本质，听过马老师参加的这两次播客，有豁然开朗的感觉。

曼祺_MatchQ

4个月前北京

「欲知未来，先知过去。」这期是《晚点聊》的一个新系列「LongContext」“长语境”的第 1 期。类似现在的大模型需要 LongContext，我们去学习智能，也需要一个更全面的历史语境，让我们能在新东西不断涌现的此刻，找到一个更稳定的坐标。在系列开端，我邀请了香港大学计算与数据科学学院院长，马毅教授，来聊智能的历史和机器智能的历史。这是一个从 DNA 开始的漫长故事：从数十亿年前的物种进化到如今的大模型，马老师有一个有趣的统一观察视角。具体来听本期节目吧~ （btw，点开这期，你将 get 上周马老师在清华、北大、北邮分享的精华想法，并得到更多他个人亲历的 AI 变化。去年的节目：https://www.xiaoyuzhoufm.com/episode/6668d95ebb0f9563f6302495?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D

哦亲爱的达瓦里希

4个月前四川

这期播客质量，超级棒，深入浅出。大师果然能把深奥的东西简单说清楚

kamu

4个月前上海

宇宙是在熵增的，生命和智能是在对抗宇宙的熵增中不断进化……熵减对抗熵增，有序对抗无序；同时，局部的智能熵减又会增加宇宙整体的熵增……比如近现代以来的工业化和现代化，导致地球增温气候变暖海平面上升灾害天气变多……未来，AI 这个消耗巨量算力和能源的巨兽，会给地球和生命带来什么样的福和祸……拭目以待😂

stewart831

4个月前广东

1:42:09 老师的港大课程有开源吗？很想去听一下😁

叡成_Raychen

4个月前英国

1:27:18 关于Hinton，补充一个国内不为人知的小故事。Hinton当年在我校读博时，与博导关系不佳，能够毕业的核心原因是他父亲是院士，他导师也是院士。倘若传出院士的儿子博士辍学，有损声誉。因此最终让他毕业，但是博后的位置就没有给他，因此Hinton远走北美。

晓峰_jCYO

4个月前北京

关于大卫休谟的这段文字有点意思，因果推理也应基于经验，这是否说明当前最红的AI技术：LLM，它擅长的概率计算，其实也是一种因果计算？ David Hume extended Locke’s empiricism by contending that human beings cannot possess knowledge of the world that is not based on empirical evidence. He famously questioned the concept of causality, arguing that we cannot know with certainty whether one event causes another, but only that we habitually associate the two events in our experience. Hume’s skepticism about the limitations of human reason and his challenge to the certainty of causal relationships were revolutionary in their implications, shaking the very foundations of traditional metaphysics and epistemology. 大卫·休谟通过进一步阐述经验主义，提出人类不能拥有不基于经验证据的世界知识。他著名地质疑了因果关系的概念，认为我们无法确定某一事件是否引起了另一事件，但只能在我们的经验中习惯性地将这两者联系在一起。休谟对人类理性局限性的怀疑以及对因果关系确定性的挑战在其影响力上具有革命性，动摇了传统形而上学和认识论的基础。