时长:
                                
                                
                                    60分钟
                                
                            
                                    播放:
                                
                                
                                    1,758                                
                            
                                    发布:
                                
                                
                                    5天前
                                
                            
                    主播...
                
                
            
                    简介...
                
                
                        📝 本期播客简介
本期我们克隆了知名播客《The MAD Podcast》的精彩内容,主持人Matt Turck与OpenAI研究副总裁Jerry Tworek的深度对话。Jerry Tworek不仅是OpenAI的关键人物,更是被Metas评选为世界顶尖的人工智能研究者之一。他将带我们深入探索人工智能最核心的“推理”能力。从宏观层面,Jerry将揭示当ChatGPT“思考”时,背后究竟发生了什么,以及“思维链”如何让模型像人类一样解决复杂问题。他还会分享OpenAI如何平衡模型的思考时长与用户体验,并回顾其推理能力从O1到O3再到GPT-5的演进历程。
对话中,Jerry详细阐释了强化学习(RL)和人类反馈强化学习(RLHF)的奥秘,用生动的“训狗”比喻解释了奖励机制,并探讨了智能体、环境、策略等核心概念。我们还将了解到OpenAI独特的内部文化:他们如何聚焦少数几个核心项目、保持研究部门的高度透明,以及如何以惊人的速度迭代产品。Jerry还分享了他从波兰数学天才到华尔街交易员,最终投身OpenAI,主导机器人和强化学习项目的个人经历。节目还将触及AI对齐、奖励滥用等前沿议题,并探讨强化学习在编程竞赛(如ICPC)中的惊人表现,以及它如何推动我们走向通用人工智能的未来。这是一场关于AI核心技术、OpenAI幕后故事与个人成长轨迹的全面对话,不容错过。
翻译克隆自:How GPT-5 Thinks — OpenAI VP of Research Jerry Tworek
👨⚕️ 本期嘉宾
Jerry Tworek,OpenAI研究副总裁,被Metas评选为世界顶尖人工智能研究者之一。他主导了OpenAI的机器人和强化学习项目,并推动了模型推理能力的发展。
⏱️ 时间戳
播客开场与核心主题
00:00 播客简介:AI推理、强化学习与OpenAI幕后故事
01:32 Jerry Tworek:O1到GPT-5的演进与AI的集体使命
02:01 Matt Turck:介绍嘉宾Jerry Tworek及本期核心议题
AI推理的深度解析
02:33 什么是AI推理:从“思考过程”到寻找未知答案
03:50 思维链(Chain of Thought):模型如何像人类一样“说出”思考过程
06:17 模型思考时长:质量与用户体验的平衡与权衡
08:06 推理能力演进:O1的演示,O3的颠覆,GPT-5的迭代
Jerry Tworek的个人传奇
10:36 波兰数学天才到华尔街交易员:早年经历与职业转折
15:01 发现强化学习:DQN的震撼与加入OpenAI的契机
16:32 OpenAI早期:Dota 2项目与机器人灵巧操控的挑战
OpenAI的独特文化与高效运作
19:03 Jerry的一天:与研究员的深度交流与研究计划的打磨
19:56 研究优先级:少数核心项目与自下而上的协作模式
22:16 协作与透明:研究部门的“人人皆知”文化
23:52 快速发布:OpenAI的势头、人才与激情驱动的迭代速度
25:21 内部工具使用:Codex写代码,ChatGPT辅助日常工作
强化学习(RL)核心机制
26:13 预训练与强化学习:现代AI系统的两大支柱
28:24 强化学习入门:用“训狗”比喻奖励机制
30:05 RL术语解析:智能体、环境、行动、奖励与策略
31:00 强化学习演进:从深度强化学习到预训练的赋能
33:42 GPT-4与RLHF:人类反馈如何成就“GPT时刻”
37:20 RLHF细节:AI训练师与数据标注的演变
38:24 无监督学习与预训练:数据本身的学习与表示
RL前沿与挑战
40:01 GRPO与美国实验室:开源算法如何加速AI研究
42:34 规模化强化学习:为何它比预训练更复杂更难
44:03 生成式AI与智能体:模型如何自主思考更长时间
46:14 AI对齐:强化学习在引导模型行为中的作用与挑战
47:57 奖励滥用:激励系统中的“打地鼠”游戏
RL的应用与通用人工智能(AGI)的未来
48:49 RL在数学编程的惊人表现:ICPC世界总决赛的胜利
52:44 RL推广至其他领域:评估反馈与奖励滥用的持续挑战
55:06 通用人工智能之路:预训练、RL与未来模型的自我改进
57:17 AGI的哲学思考:纯粹RL与LLM的辩论
59:08 结语:感谢Jerry Tworek的精彩分享
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
                本期我们克隆了知名播客《The MAD Podcast》的精彩内容,主持人Matt Turck与OpenAI研究副总裁Jerry Tworek的深度对话。Jerry Tworek不仅是OpenAI的关键人物,更是被Metas评选为世界顶尖的人工智能研究者之一。他将带我们深入探索人工智能最核心的“推理”能力。从宏观层面,Jerry将揭示当ChatGPT“思考”时,背后究竟发生了什么,以及“思维链”如何让模型像人类一样解决复杂问题。他还会分享OpenAI如何平衡模型的思考时长与用户体验,并回顾其推理能力从O1到O3再到GPT-5的演进历程。
对话中,Jerry详细阐释了强化学习(RL)和人类反馈强化学习(RLHF)的奥秘,用生动的“训狗”比喻解释了奖励机制,并探讨了智能体、环境、策略等核心概念。我们还将了解到OpenAI独特的内部文化:他们如何聚焦少数几个核心项目、保持研究部门的高度透明,以及如何以惊人的速度迭代产品。Jerry还分享了他从波兰数学天才到华尔街交易员,最终投身OpenAI,主导机器人和强化学习项目的个人经历。节目还将触及AI对齐、奖励滥用等前沿议题,并探讨强化学习在编程竞赛(如ICPC)中的惊人表现,以及它如何推动我们走向通用人工智能的未来。这是一场关于AI核心技术、OpenAI幕后故事与个人成长轨迹的全面对话,不容错过。
翻译克隆自:How GPT-5 Thinks — OpenAI VP of Research Jerry Tworek
👨⚕️ 本期嘉宾
Jerry Tworek,OpenAI研究副总裁,被Metas评选为世界顶尖人工智能研究者之一。他主导了OpenAI的机器人和强化学习项目,并推动了模型推理能力的发展。
⏱️ 时间戳
播客开场与核心主题
00:00 播客简介:AI推理、强化学习与OpenAI幕后故事
01:32 Jerry Tworek:O1到GPT-5的演进与AI的集体使命
02:01 Matt Turck:介绍嘉宾Jerry Tworek及本期核心议题
AI推理的深度解析
02:33 什么是AI推理:从“思考过程”到寻找未知答案
03:50 思维链(Chain of Thought):模型如何像人类一样“说出”思考过程
06:17 模型思考时长:质量与用户体验的平衡与权衡
08:06 推理能力演进:O1的演示,O3的颠覆,GPT-5的迭代
Jerry Tworek的个人传奇
10:36 波兰数学天才到华尔街交易员:早年经历与职业转折
15:01 发现强化学习:DQN的震撼与加入OpenAI的契机
16:32 OpenAI早期:Dota 2项目与机器人灵巧操控的挑战
OpenAI的独特文化与高效运作
19:03 Jerry的一天:与研究员的深度交流与研究计划的打磨
19:56 研究优先级:少数核心项目与自下而上的协作模式
22:16 协作与透明:研究部门的“人人皆知”文化
23:52 快速发布:OpenAI的势头、人才与激情驱动的迭代速度
25:21 内部工具使用:Codex写代码,ChatGPT辅助日常工作
强化学习(RL)核心机制
26:13 预训练与强化学习:现代AI系统的两大支柱
28:24 强化学习入门:用“训狗”比喻奖励机制
30:05 RL术语解析:智能体、环境、行动、奖励与策略
31:00 强化学习演进:从深度强化学习到预训练的赋能
33:42 GPT-4与RLHF:人类反馈如何成就“GPT时刻”
37:20 RLHF细节:AI训练师与数据标注的演变
38:24 无监督学习与预训练:数据本身的学习与表示
RL前沿与挑战
40:01 GRPO与美国实验室:开源算法如何加速AI研究
42:34 规模化强化学习:为何它比预训练更复杂更难
44:03 生成式AI与智能体:模型如何自主思考更长时间
46:14 AI对齐:强化学习在引导模型行为中的作用与挑战
47:57 奖励滥用:激励系统中的“打地鼠”游戏
RL的应用与通用人工智能(AGI)的未来
48:49 RL在数学编程的惊人表现:ICPC世界总决赛的胜利
52:44 RL推广至其他领域:评估反馈与奖励滥用的持续挑战
55:06 通用人工智能之路:预训练、RL与未来模型的自我改进
57:17 AGI的哲学思考:纯粹RL与LLM的辩论
59:08 结语:感谢Jerry Tworek的精彩分享
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
                    评价...
                
                                    空空如也
                        
            
         
                        小宇宙热门评论...
                    
                    
                                            
                                                    
                                                        咕舟舟
                                                    
                                                    
                                                
                                                
                                                        1周前
                                                        
                                                        美国
                                                    
                                                
                    1
                
            
                                                绝了,听到中间一度觉得就是真人录的
                                            
                                        
                                                    
                                                        frank_uRmf
                                                    
                                                    
                                                
                                                
                                                        1周前
                                                        
                                                        广东
                                                    
                                                
                    0
                
            
                                                嘉宾讲话像人工智能的语音输出。
                                            
                                        
                                                    
                                                        ReaBroker
                                                    
                                                    
                                                
                                                
                                                        1周前
                                                        
                                                        北京
                                                    
                                                
                    0
                
            
                                                很不错,openai的思路 预训练加强化学习
                                            
                                        
                                                    
                                                        HD945716s
                                                    
                                                    
                                                
                                                
                                                        1周前
                                                        
                                                        北京
                                                    
                                                
                    0
                
            
                                                听这位的简历,我们似乎不能确定openai的研究人员是最聪明的人