评分
暂无评分
0人评价
5星
0%
4星
0%
3星
0%
2星
0%
1星
0%
AI智能总结...
AI 正在思考中...
本集内容尚未生成 AI 总结
简介...
【节目介绍】
本期节目聚焦强化学习,带你走进这一人工智能核心领域。从图灵奖得主巴托(Andrew Barto)和萨顿(Richard S. Sutton)的卓越成就,到强化学习从游戏到大模型的广泛应用,我们将回顾这段发展历程,探索RL的未来潜力。这是一场关于深度学习的历史和现状的回顾之旅,重新带你领略人工智能与各个学科的融合魅力。
【时间线】
01:40 从AlphaGo到RLHF(基于人类反馈的强化学习)
03:56 关于萨顿的《苦涩的教训》(The Bitter Lesson)
09:15 强化学习的启蒙奠基
- 爱德华·桑代克(Edward Thorndike),动物智能和效果法则(Law of Effect)
- 唐纳德·赫布(Donald Hebb),赫布法则(Hebb's Law)
- 沃伦·麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts),神经元理论
- 安德烈·马尔可夫(Andrey Markov),马尔可夫决策过程(MDPs)
15:35 人工智能领域的早期发展
- 艾伦·图灵(Alan Turing),人工智能之父
- 贝尔蒙特·法利(Belmont Farley) & 韦斯利·克拉克**(**Wesley A. Clark),模拟第一个含有128个神经元的小型神经网络
- 克劳德·香农(Claude Shannon),Theseus迷宫老鼠
- 马文·明斯基(Marvin Lee Minsky),随机神经模拟强化计算器SNARC(Stochastic Neural Analog Reinforcement Calculator)
21:04 游戏让强化学习续命
- 亚瑟·塞缪尔(Arthur Samuel),IBM701上的第一个跳棋程序(Checkers)
- 理查德·乌尔曼(Richard Belleman),Dynamic programming equation(动态规划方程,即贝尔曼方程)
- 唐纳德·米奇(Donald Michie),井字游戏 Matchbox Educable Noughts And Crosses Engine (MENACE)
25:49 强化学习的诞生
- 安德鲁·巴托(Andrew Barto),2024年图灵奖得主,强化学习奠基人
- 约翰·霍兰德(John Henry Holland),遗传算法和学习分类器
- 诺伯特·维纳(Norbert Wiener),控制论奠基人
- 迈克尔·阿比布(Michael A. Arbib),神经计算
- 哈里·克劳普(Harry Clopf),享乐神经元
- 理查德·萨顿(Richard S. Sutton),2024年图灵奖得主,强化学习奠基人
- 杰拉尔德·特萨罗(Gerald Tesauro),TD-Gammon 西洋双陆棋游戏
- 沃尔夫拉姆·舒尔茨(Wolfram Schultz),多巴胺
40:35 强化学习的后继演化
- 大卫·西尔弗**(**David Silver),深度强化学习(Deep reinforcement learning)
- 吴恩达(Andrew Ng),逆强化学习(IRL,Inverse Reinforcement Learning)
- 皮特·阿贝尔 (Pieter Abbeel),机器人学习(Robot Learning)和模仿学习(Imitation Learning)
- 谢尔盖·列文(Sergey Levine),自主机器人和车辆
- 约翰·舒尔曼(John Schulman),深度强化学习(Deep RL)的策略优化(Policy Optimization)
45:30 萨顿最新的观点,《去中心化神经网络》(Decentralized Neural Networks)
【关系图】

【延伸阅读】
《苦涩的教训》(The Bitter Lesson),理查德·萨顿(Richard S. Sutton) 2019
【片头和片尾音乐】
【感谢】
特别感谢[AIGC开放社区]和[AI重塑世界]的大力支持,请听友及时订阅微信公众号,查看本播客的文字版内容。欢迎订阅本播客节目,本节目在小宇宙、喜马拉雅、苹果播客、蜻蜓FM、网易云音乐、荔枝FM等平台均已上线。
主播...

Ian言
评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论